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内 容 简 介 


TensorFlow 是 谷歌 2015 年 开源 的 主流 深度 学 习 框 架 ， 目前 已 在 谷歌 、 优 
步 (Uber) 、 京 东 、 小 米 等 科技 公司 广泛 应 用 。 本 书 为 使 用 TensorFlow 
深度 学 习 框 架 的 入 门 参考 书 ， 则 在 帮助 读者 以 快速 、 有 效 的 方式 上 手 
TensorFlow 和 深度 学 习 。 书 中 省 略 了 深度 学 习 繁 琐 的 数学 模型 推导 ， 从 
实际 应 用 问题 出 发 ， 通 过 具体 的 TensorFlow 样 例 程序 介绍 如 何 了 使 用 深 
度 学 习 解 决 这 些 问 题 。 书 中 包含 了 深度 学 习 的 入 门 知 识 和 大 量 实践 经 
验 ， 是 走 进 这 个 前 沿 、 热 门 的 人 工 智 能 领域 的 首选 参考 书 。 


读者 对 象 : 对 人 工 智能 、 深 度 学 习 感 兴趣 的 计算 机 相关 从 业 人 员 ， 想 要 
使 用 深度 学 习 或 TensorFlow 的 数据 科学 家 、 工 程 师 ， 和 希望 了 解 深 度 学 习 
的 大 数据 平台 工程 师 ， 对 人 工 智能 、 机 器 学 习 感 兴趣 的 在 校 学 生 ， 和 希望 
找 深 度 学 习 相 关 疯 位 的 求职 人 员 ， 等 等 。 

未 经 许可 ， 不 得 以 任何 方式 复制 或 抄 复 本 书 之 部 分 或 全 部 和 内容。 

版 权 所 有 ， 侵 权 必 完 。 
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“互联 网 + 的 大 潮 催生 了 诸如 “互联 网 + 外 卖 人 “互联 网 + 打车 ”“ 互 联网 
+ 家 政 ? 等 众多 了 商业 模式 的 创新 和 创业 佳话 。 而 当 “ 互 联网 +?” 已 被 写 入 教 
科 书 并 成 为 传统 行业 部 在 积极 践 行 的 发 展 道路 时 ， 过 去 一 年 科技 者 的 聚 
光 灯 却 和 被 人 工 智能 和 深度 学 习 所 创造 的 一 个 个 奇迹 所 占据 。 从 阿尔 法 狗 
肆 度 于 棋 界 ， 到 人 工 智 能 创业 大 摆 的 崛起 ， 都 预示 痢 我 们 即将 步 











入 “AI+” 的 时 代 : “AI+ 教 育 ”、 “AI+ 媒 体 ”、 “AI+ 医 学 ” “AI+ 配 
送 ”、“AI+ 农 业 ”， 等 等 ， 将 会 层出不穷 。 


AI 在 近期 的 爆发 离 不 开 数 据 “ 质 ”和 “ 量 ” 的 提升 ， 离 不 开 高 性 能 计算 平台 
的 发 展 ， 更 离 不 开 算 法 的 进步 ， 而 深度 学 习 则 成 为 了 推动 算法 进步 中 的 
一 个 主力 军 。TensorFlow 作 为 谷歌 开源 的 深度 学 习 框 架 ， 包 含 了 谷歌 过 
去 10 年 间 对 于 人 工 智 能 的 探索 和 成 功 的 商业 应 用 。 谷 歌 的 自驾 车 、 搜 
索 、 购 物 、 广 告 、 云 计算 等 产品 ， 都 无 时 无 刻 不 在 利用 类 似 TensorFlow 
的 深度 学 习 算 法 将 数据 的 价值 最 大 化 ， 从 而 创造 巨大 的 商业 价值 。 


TensorFlow 作 为 一 个 开源 框架 ， 在 极 短 时 间 内 迅速 疾 粉 并 已 成 为 
github.com 上 次 眼 的 明星 。 然 而 ， 掌 握 深度 学 习 需 要 较 强 的 理论 功底 ， 
用 好 TensorFlow 又 需要 足够 的 实践 和 解析 。 开 源 项 目 和 代码 本 身 回 然 重 
要 ， 但 更 重要 的 是 使 用 者 的 经 验 和 领域 知识 ， 以 及 如 何 将 底层 技术 或 工 
有 具 采用 最 佳 实践 和 模式 来 解决 现实 问题 。 我 与 作者 共事 多 年 ， 浏 览 本 书 
后 深 深 体会 到 该 作品 是 作者 在 谷歌 多 年 分 布 式 深度 学 习 实践 经 验 和 其 理 
论 才 学 的 浓缩 ， 也 相信 这 本 从 入 门 到 高 级 实践 的 读物 能 够 为 每 个 读者 带 
来 一 个 精神 盛 宰 ， 并 帮助 计算 机 技术 从 业者 在 各 目的 业务 领域 打开 新 的 
思路 、 插 上 新 的 翅膀 。 




















张 奏 


杭州 才 云 科技 有 限 公 司 联合 创始 人 CEO、Carnegie Mellon University 计 
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自 2015 年 11 月 发 布 以 来 ，TensorFlow 在 GitHub 上 迅速 受到 广泛 关注 。 
TensorFlow 的 一 个 突出 特点 ， 是 它 很 好 地 兼顾 了 学 术 研 究 和 工业 生产 的 
不 同 需 求 。 一 方面 ，TensorFlow 的 灵活 性 使 得 研究 人 员 能 够 利用 它 快速 
实现 最 新 的 模型 设计 ; 男 一 方面 ，TensorFlow 强 大 的 分 布 式 支持 ， 对 工 
业界 在 海量 数据 集 上 进行 的 模型 训练 也 至 关 重 要 。 


以 我 供职 的 谷歌 翻译 组 为 例 ， 在 研发 最 新 的 神经 网 络 翻译 模型 过 程 中 ， 
我 们 既 需要 快速 元 活 地 答 试 学 术 界 各 类 最 新 的 想法 ， 又 需要 成 熟 、 高 效 
的 分 布 式 训练 系统 ， 以 便 在 十 亿 句 量 级 的 训练 数据 上 训练 最 终 模 型 。 

TensorFlow 的 特性 使 我 们 只 需 维 护 一 套 代 码 ， 就 能 够 高 效 兼 顾 这 两 方面 





的 工作 。 模 型 训练 完成 之 后 ， 我 们 又 借助 TensorFlow 搭 建 了 一 个 高 性 
能 、 低 延迟 的 在 线 翻译 服务 。 目 前 谷歌 翻译 每 天 完成 大 约 千 亿 词 量 级 的 
文字 翻译 任务 ， 其 中 超过 359% 是 通过 TensorFlow 进 行 的 。 


TensorFlow 还 有 着 强大 的 可 移植 性 ， 支 持 GPU、CPU、 安 卓 、iOS 等 多 
种 计算 平台 。 受 益 于 这 一 特性 ， 开 发 者 可 以 在 移动 平台 上 开发 复杂 的 深 
度 学 习 应 用 。 仍 以 翻译 为 例 ， 谷 歌 翻译 应 用 中 广 受 好 评 的 图 片 即 时 翻译 
功能 ， 就 是 依赖 于 移动 平台 上 的 TensorFlow， 使 用 用 户 的 手机 本 地 完成 
计算 的 。 这 一 功能 可 以 帮助 人 们 摆脱 语言 和 手机 网 络 的 约束 ， 更 加 自由 
地 体验 全 球 各 地 的 风土 人 情 。 


谷歌 已 经 将 TensorFlow 大 规模 应 用 于 数 十 项 产品 的 研发 中 ， 而 在 谷歌 以 
外 ，TensorFlow 也 逐渐 得 到 广泛 应 用 。 从 国内 的 小 米 、 京 东 ， 到 硅谷 的 
Uber、Airbnb、Twitter 等 ， 都 已 经 开始 采用 TensorFlow 进 行 生产 实践 。 
多 伦 多 大 学 、 加 州 大 学 伯克利 分 校 等 著名 高 校 ， 也 已 经 将 TensorFlow 用 
于 教学 当中 ， 斯 坦 福 大 学 更 是 专门 开设 了 “TensorFlow for Deep Learning 
Research” 课 程 ， 帮 助 学 生 深入 理解 这 一 深度 学 习 领 域 的 重要 工具 。 


作者 郑 泽 宇 是 我 的 多 年 好 友 ， 他 对 于 机 器 学 习 的 学 术 研 究 和 工业 应 用 方 
面 都 有 着 极为 丰富 的 经 验 。 这 本 教程 从 深入 浅 出 ， 涵 靖 了 深度 学 习 中 季 
见 算法 的 理论 基础 和 TensorFlow 实 现 两 方面 内 容 。 相 信 这 本 书 能 帮助 读 
者 在 最 短 时 间 内 理解 深度 学 习 并 熟练 应 用 TensorFlow， 在 这 一 当前 极为 
活跃 的 领域 展开 工程 实践 。 

















梁 博 文 
工程 师 ， 谷 歌 翻 译 团 队 
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深度 学 习 带 来 的 技术 单 命 波 及 其 三 ， 学 术 界 同样 早已 从 中 受益 ， 将 深度 
学 习 广 泛 应 用 到 各 个 学 科 领 域 。 深 度 学 习 源 目 “ 古 老 ” 的 神经 网 络 技术 ， 

既 标志 着 传统 神经 网 络 的 卷土重来 ， 也 夭 由 AlphaGo 碾 压 人 类 围棋 一 

役 ， 开 局 了 AI 爆炸 陈 发 展 的 大 幕 。 机 器 学 习 为 人 工 智 能 指明 道路 ， 而 深 
度 学 习 则 让 机 器 学 习 真 正 落 地 。 作 为 高 等 教育 工作 者 ， 让 学 生 了 解 和 跟 
上 最 新 拉 术 发 展 的 意义 不 言 而 喻 。 而 深度 学 习 的 重要 性 ， 从 近来 国内 外 
互联 网 巳 壁 对 未 来 的 展望 中 可 见 并 倪 一 一 以 深度 学 习 照 次 下 的 人 工 智能 














技术 ， 坚 无 疑问 是 下 一 个 时 代 的 主角 和 支柱 。 


然而 ， 目 前 深度 学 习 的 相关 资料 ， 尤 其 是 像 TensorFlow 这 种 引领 未 来 趋 
势 的 新 技术 的 学 习 资 料 ， 普 裔 存在 明显 缺憾 。 


其 一 ， 中 文 资料 非常 少 ， 而 且 信息 零散 、 不 成 系统 。 这 篇 文章 里 讲 一 个 
ee 
既 念 体系 。 


其 二 ， 已 有 的 深度 学 习 资料 大 多 偶 重 理论 ， 对 概率 、 统 计 等 数学 功底 有 
很 高 的 要 求 ， 不 易 激 发 学 生 的 兴趣 。 


而 这 些 现存 问题 ， 也 正 是 我 对 泽 宇 这 部 著作 寄予 厚望 的 原因 I 
本 非常 适合 高 校 学 生 走 近 深度 学 习 的 入 门 读物 。 因 为 它 从 实际 问题 出 

发 ， 可 以 激发 读者 的 兴趣 ， 让 读者 可 以 快速 而 直观 地 享受 到 解决 问题 的 
成 就 感 。 同 时 ， 此 书 理 论 与 实践 并 重 ， 既 介绍 了 深度 学 习 的 基本 概念 ， 
为 更 加 深入 地 研究 深度 学 习 葛 定 基础 ， 叉 给 出 了 具体 的 TensorFlow 样 例 
代码 ， 让 读者 可 以 将 学 习 成 果 直 接 运 用 到 实践 中 。 


我 非 向 相信 也 衷心 厦 望 ， 有 志 参 与 深度 学 习 未 来 大 潮 的 莘 莘 学 子 ， 能 插 
借 此 书 更 快速 、 更 扎实 地 开局 深度 学 习 之 旅 ， 并 通过 TensorFlow 来 实现 
深度 学 习 常 用 算法 ， 从 而 登 这 入室， 最 终 成 为 AI 的 真正 芍 驭 者 。 



































张 铭 
北京 大 学 信息 学 院 教授 

一 人 一“ 

月 吾 
“< 深度 学 习 ” 这 个 词 在 过 去 的 一 年 之 中 已 经 稻 炸 了 媒体 、 技 术 博客 甚至 朋 


友 轿 。 这 也 许 正 是 你 会 读 到 本 书 的 原因 之 一 。 数 十 年 来 ， 人 工 知 能 技术 
虽 不 断 发 展 ， 但 像 深 度 学 习 这 样 在 学 术 界 和 工业 界 皆 有 具 颐 罗 性 的 技术 实 
在 是 十 年 难 遇 。 可 惜 的 是 ， 理 解 和 灵活 运用 深度 学 习 并 不 容易 ， 尤 其 是 
其 复杂 的 数学 模型 ， 让 不 少 感 兴趣 的 同学 “从 入 门 到 放弃 ”。 更 糟 料 的 

是 ， 因 为 深度 学 习 技术 的 飞速 及 展 ， 而 写 书 、 出 版 的 过 程 又 非常 复杂 ， 
不 论 是 英文 还 是 中 文 ， 都 很 难 找到 从 实战 出 发 的 深度 学 习 参 考 书 。 关 于 
当前 最 新 最 火 的 深度 学 习 框 架 TensorFlow 的 书籍 更 是 空缺 。 这 正 是 作者 














在 工作 之 余 ， 获 夜 写 这 本 书 的 动力 。 作 者 本 人 作为 一 枚 标准 码 农 、 创 业 
党 ,希望 这 本 书 能 够 帮助 码 农 和 准 码 农 们 绕 过 深度 学 习 复杂 的 数据 公 
式 ， 通 过 本 书 的 大 量 样 例 代码 快速 上 手 深度 学 习 ， 解 决 工作 、 学 习 中 的 


实际 问题 。 


2016 年 初 ， 作 者 和 小 伙伴 们 从 美国 谷歌 辞职 ， 回 到 祖国 杭州 联合 创办 了 
才 云 科技 〈Caicloud.io) ， 为 企业 提供 人 工 智能 平台 和 解决 方案 ， 在 作 
者 回国 之 初 ， 很 多 企业 都 展示 出 了 对 于 TensorFlow 浓 厚 的 兴趣 。 人 然而 在 
深度 交流 之 后 ， 作 者 发 现 虽 然 TensorFlow 是 一 于 非常 容易 上 手 的 工具 ， 

但 是 深度 学 习 的 技术 目前 并 不 是 每 一 个 企业 都 掌握 的 。 为 了 让 更 多 的 个 
人 和 企业 可 以 享受 到 深度 学 习 技术 带 来 的 福利 ， 作 者 与 电子 工业 出 版 社 
的 张 春 雨 主编 一 拍 即 合 ， 开 始 了 本 书 的 撰写 工作 。 


使 用 TensorFlow 实 现 深度 学 习 是 本 书 重 点 介绍 的 对 象 。 本 书 将 从 
TensorFlow 的 安装 开始 ， 逐 一 介绍 TensorFlow 的 基本 概念 、 使 用 
TensorFlow 实 现 全 连接 深层 神经 网 络 、 卷 积 神经 网 络 和 循环 神经 网 络 等 
深度 学 习 算 法 。 在 介绍 使 用 TensorFlow 实 现 不 同 的 深度 学 习 算 法 的 同 
时 ， 作 者 也 深入 浅 出 地 介绍 了 这 些 深 度 学 习 算 法 背后 的 理论 ， 并 给 出 了 
这 些 算法 可 以 解决 的 具体 问题 。 在 本 书 中 ， 作 者 避 开 了 枯燥 复杂 的 数学 
公式 ， 从 实际 问题 出 发 ， 在 实践 中 介绍 深度 学 习 的 概念 和 TensorFlow 的 
用 法 。 在 本 书 中 ， 作 者 还 介绍 了 TensorFlow 并 行 化 输入 数据 处 理 流 程 、 
TensorBoard 可 视 化 工具 以 及 带 GPU 的 分 布 式 TensorFlow 使 用 方法 。 


TensorFlow 是 一 个 飞速 发 展 的 工具 。 本 书 在 写作 时 最 新 的 版 本 为 0.9.0， 
然而 到 本 书 出 版 时 ， 谷 歌 已 经 推出 了 TensorFlow 1.0.0。 为 了 让 广大 读者 
更 好 地 理解 和 试用 书 中 的 样 例 代码 ， 我 们 提供 了 一 个 公开 的 GitHub 代 码 
库 来 维护 不 同 TensorFlow 版 本 的 样 例 程 序 。 该 代码 库 的 网 址 为 
https://github.com/caicloud/tensorflow-tutorial。 在 Caicloud 提 供 的 
TensorFlow 镜 像 cargo.caicloud.io/tensorflow/tensorflow:0.12.0 中 也 包含 了 
本 书 的 样 例 代 码 。 作 者 衷心 地 希望 各 位 读者 能 够 从 本 书 获 益 ， 这 也 是 对 
我 们 最 大 的 支持 各 励 。 对 于 书 中 出 现 的 任何 错误 或 者 不 准确 的 地 方 ， 
欢迎 大 家 批评 指正 ， 并 发 送 邮 件 至 zeyu@caicloud.io。 


读者 也 可 登录 博文 视点 官网 http:/www.broadview.com.cn 下 载 本 书 代码 或 
提交 勘误 信息 。 一 旦 勘误 信息 说 作者 或 编辑 确认 ， 即 可 获得 博文 视点 奖 
励 积 分 ， 可 用 于 部 换 电子 书 。 读 者 可 以 随时 浏览 图 书页 面 ， 查 看 已 发 布 
的 勘误 信息 。 
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第 1 章 ”深度 学 习 简 介 


随 着 AlphaGo 战 胜 李 世 石 ， 人 工 智 能 和 深度 学 习 这 些 概念 已 经 成 为 一 个 
非常 火 的 话题 。 谷 歌 (Google) 、 脸 书 (Facebook〉、 百 度 、 阿 里 巴巴 
等 一 系列 国内 外 大 公司 纷纷 对 外 公开 宣布 了 人 工 乔 能 将 作为 他 们 下 一 个 
战略 重心 。 在 类 似 AlphaGo、 无 人 驾驶 汽车 等 最 新 技术 的 背后 ， 深 上 度 学 
习 是 推动 这 些 技 术 发 展 的 核心 力量 。 人 深度 学 习 ” 是 本 书 的 核心 概念 。 通 
过 阅读 本 章 ， 读 者 将 从 多 个 角度 了 解 这 一 概念 。 人 工 智 能 、 机 器 学 习 与 
深度 学 习 这 几 个 关键 词 时 第 出 现在 媒体 新 闻 中 ， 并 错误 地 被 认为 是 等 同 
的 概念 。1.1 节 将 介绍 人 工 智能 、 机 器 学 习 以 及 深度 学 习 的 概念 ， 并 着 

重 解析 它们 之 间 的 关系 。 这 一 节 将 从 不 同 领 域 需要 解雇 的 问题 入 手 ， 依 
次 介绍 这 些 领 域 的 基本 概念 以 及 解决 领域 内 问题 的 主要 思路 。 在 介绍 完 























深度 学 习 基 本 的 概念 之 后 ，1.2 节 将 完整 地 介绍 深度 学 习 发 展 史 。 虽 
然 “ 深 度 学 习 ” 这 个 名 词 是 在 最 近 几 年 才 提 出 ， 但 深度 学 习 基 于 的 神经 网 
络 算法 却 早 在 20 世 纪 40 年 代 束 出 现 了 。 这 一 节 将 会 介绍 神经 网 络 及 展 过 
程 中 的 重大 事件 ， 并 介绍 深度 学 习 研 完 领 域 的 发 展 历程 。 


接着 ，1.3 节 将 从 计算 机 视觉 、 语 音 识 别 、 目 然 语 言 处 理 和 人 机 博弈 四 
个 不 同 的 方向 介绍 目前 深度 学 习 的 应 用 。 从 2012 年 深度 学 习 被 成 功 应 用 
于 图 像 识别 问题 以 来 ， 研 究 人 员 一 直 在 扩展 它 的 应 用 范围 和 影响 力 。 这 
一 节 既 会 介绍 在 不 同方 回 上 深度 学 习 在 学 术 界 取得 的 成 就 ， 也 会 介绍 工 
业界 成 功 应 用 深度 学 习 的 案例 。 最 后 ，1.4 节 将 引出 本 书 的 重点 
TensorFlow。TensorFlow 是 谷歌 开源 的 一 个 计算 框架 ， 该 计算 框架 可 以 
很 好 地 实现 各 种 深度 学 习 算 法 。 这 一 节 将 简单 介绍 TensorFlow 的 特性 以 
及 它 目 前 的 应 用 场景 。 也 将 对 比 不 同 的 开源 深度 学 习 工 具 ， 并 通过 具体 
的 数字 来 说 明 TensorFlow 相 比 其 他 工具 的 优势 以 及 作者 将 TensorFlow 作 
为 本 书 介 绍 对 象 的 原因 。 


1.1 人工 智能 、 机 融和 学 习 与 深 虚 学 习 
(TD 


从 计算 机 发 明之 初 ， 人 们 惑 硕 望 它 能 够 帮助 其 全 代 符 人 类 完成 重复 性 攻 
作 。 利 用 巨大 的 存储 空间 和 超 高 的 运算 速度 ， 计 算 机 已 经 可 以 非常 轻易 
地 完成 一 些 对 于 人 类 非常 困难 ， 但 对 计算 机 相对 简单 的 问题 。 比 如 ， 统 
计 一 本 书 中 不 同 单词 出 现 的 次 数 ， 存 储 一 个 图 书馆 中 所 有 的 藏书 ， 或 是 
计算 非常 复杂 的 数学 公式 ， 都 可 以 轻松 通过 计算 机 解决 。 然 而 ， 一 些 人 
类 通过 直觉 可 以 很 快 解决 的 问题 ， 目 前 却 很 难 通 过 计算 机 解决 。 这 些 问 
题 包括 自然 语言 理解 、 图 像 识 别 、 语 音 识 别 ， 等 等 。 而 它们 就 是 人 工 智 
能 需要 解决 的 问题 。 


计算 机 要 像 人 类 一 样 完 成 更 多 智能 的 工作 ， 需 要 掌握 关于 这 个 世界 海量 
的 知识 。 比 如 要 实现 汽车 自动 要 驶 ， 计 算 机 至 少 需要 能 够 判断 哪里 是 

路 ， 哪 里 是 障碍 物 。 这 个 对 人 类 非常 直观 的 东西 ， 但 对 计算 机 却 是 相当 
困难 的 。 路 有 水 泥 的 、 沥 青 的 ， 也 有 石子 的 甚至 土路 。 这 些 不 同 材质 铺 
成 的 路 在 计算 机 看 来 差距 非常 大 。 如 何 让 计算 机 车 握 这 些 人 类 看 起 来 非 
党 直观 的 常识 ， 对 于 人 工 智能 的 发 展 是 一 个 巨大 的 挑战 。 很 多 早期 的 人 
工 智能 系统 只 能 成 功 应 用 于 相对 特定 的 环境 (specific domain) ， 在 这 
些 特定 环境 下 ， 计 算 机 需要 了 解 的 知识 很 容易 被 严格 并 且 完 整地 定义 。 



























































例如 ，IBM 的 深蓝 〈Deep Blue) 在 1997 年 打败 了 国际 象棋 冠军 卡 斯 由 罗 
夫 。 设 计 出 下 象棋 软件 是 人 工 智能 史上 的 重大 成 束 ， 但 其 主要 挑战 不 在 
于 让 计算 机 掌握 国际 象棋 中 的 规则 。 国 际 象棋 是 一 个 特定 的 环境 ， 在 这 
个 环境 中 ， 计 算 机 只 需要 了 解 每 一 个 棋子 规定 的 行动 范围 和 行动 方法 即 
可 。 虽 然 计 算 机 早 在 1997 年 就 可 以 击败 国际 象棋 的 世界 冠军 ， 但 是 直到 
20 年 后 的 今天 ， 让 计算 机 实现 大 部 分 成 年 人 都 可 以 完成 的 汽车 敬 驶 却 仍 
然 依 旧 十 分 困难 。 


为 了 使 计算 机 更 多 地 掌握 开放 环境 (open domain) 下 的 知识 ， 研 究 人 员 
进行 了 很 多 尝试 。 其 中 一 个 影响 力 非 常 大 的 领域 是 知识 图 库 (Ontology 
) 。WordNet 是 在 开放 环境 中 建立 的 一 个 较 大 且 有 影响 力 的 知识 图 
库 。WordNet 是 由 普林斯顿 大 学 (Princeton University) 的 George 
Armitage Miller 教 授 和 Christiane Fellbaum 教 授 带 领 开 发 的 ， 它 将 155287 
个 单词 整理 为 了 117659 个 近义词 集 (synsets) 。 基 于 这 些 近 义 词 集 ， 
WordNet 进 一 步 定 义 了 近义词 集 之 间 的 关系 。 比 如 同义词 集 “ 狗 ”属于 同 
义 词 集 “ 犬 科 动 物 ”， 他 们 之 间 存 在 种 属 关 系 (hypernyms/hyponyms 也 
) 。 除 了 WordNet， 也 有 不 少 研 究 人 员 尝 试 将 Wikipedia 中 的 知识 整理 成 
知识 图 库 。 众 歌 的 知识 图 库 就 是 基于 Wikipedia 创 建 的 。 


虽然 使 用 知识 图 库 可 以 让 计算 机 很 好 地 和 擎 握 人 工 定义 的 知识 ， 但 建立 知 
识 图 库 一 方面 需要 花费 大 量 的 人 力 物 力 ， 男 一 方面 可 以 通过 知识 图 库 方 
式 明确 定义 的 知识 有 限 ， 不 是 所 有 的 知识 部 可 以 明确 地 定义 成 计算 机 可 
以 理解 的 固定 格式 。 很 大 一 部 分 无 法 明确 定义 的 知识 ， 就 是 人 类 的 经 

验 。 比 如 我 们 需要 判断 一 封 邮件 是 否 为 地 圾 邮件 ， 会 综合 考虑 邮件 发 出 
的 地 址 、 邮 件 的 标题 、 邮 件 的 内 容 以 及 邮件 收 件 人 的 长 度 ， 等 等 。 这 是 
收 到 无 数 垃圾 邮件 骚扰 之 后 总 结 出 来 的 经 验 。 这 个 经 验 很 难以 固定 的 方 
式 表达 出 来 ， 而 且 不 同人 对 垃圾 邮件 的 判断 也 会 不 一 样 。 如 何 让 计算 机 
MA 
笃 决 的 问题 。 


上 内 基 梅 隆 大 学 (Carnegie Mellon University) 的 Tom Michael Mitchell 
教授 在 1997 年 出 版 的 书籍 Machine Learning 中 对 机 器 学 习 进 行 过 非常 专 
业 的 定义 ， 这 个 定义 在 学 术 界 内 被 多 次 引用 。 在 这 本 书 中 对 机 器 学 习 的 
定义 为 "如果 一 个 程序 可 以 在 任务 T 上 ， 随 着 经 验 E 的 增加 ， 效 果 P 也 可 
以 随 之 增加 ， 则 称 这 个 程序 可 以 从 经 验 中 学 习 ”。 通 过 垃圾 邮件 分 类 的 
问题 来 解释 机 器 学 习 的 定义 。 在 垃圾 邮件 分 类 问题 中 ，“ 一 个 程序 ” 指 的 
是 需要 用 到 的 机 器 学 习 算 法 ， 比 如 逻辑 回归 算法 ;“ 任 务 T” 是 指 区 分 垃 












































圾 邮件 的 任务 ;“ 经 验 E” 为 已 经 区 分 过 是 否 为 垃圾 邮件 的 历史 邮件 ， 在 
监督 式 机 器 学 习 问 题 中 ， 这 也 被 称 之 为 训练 数据 ;“ 效 果 P” 为 机 器 学 习 
算法 在 区 分 是 否 为 垃圾 邮件 任务 上 的 正确 率 。 


在 使 用 逻辑 回归 算法 解决 垃圾 邮件 分 类 问题 时 ， 会 先 从 每 一 封 邮件 中 抽 
取 对 分 类 结果 可 能 有 影响 的 因素 ， 比 如 说 上 文 提 到 的 发 邮件 的 地 址 、 邮 
件 的 标题 及 收 件 人 的 长 度 ， 等 等 。 每 一 个 因素 被 称 之 为 一 个 特征 
(feature) 。 逻 辑 回 归 算 法 可 以 从 训练 数据 中 计算 出 每 个 特征 和 预测 结 
果 的 相关 度 。 比 如 在 垃圾 邮件 分 类 问题 中 ， 可 能 会 发 现 如 果 一 个 邮件 的 
收 件 人 越 多 ， 那 么 邮件 为 垃圾 邮件 的 概率 也 就 越 高 。 在 对 一 封 未 知 的 邮 
件 做 判断 时 ， 人 逻辑 回归 息 法 会 根据 从 这 封 邮 件 中 抽取 得 到 的 每 一 个 特征 
以 及 这 些 特 征 和 垃圾 邮件 的 相关 度 来 判断 这 封 邮件 是 否 为 垃圾 邮件 。 


在 大 部 分 情况 下 ， 在 训练 数据 达到 一 定数 量 之 前 ， 越 多 的 训练 数据 可 以 
使 逻辑 回归 算法 对 未 知 邮 件 做 出 的 判断 越 精 准 。 也 就 是 说 逻辑 回归 算法 
可 以 根据 训练 数据 (经验 E〉 提 高 在 垃圾 邮件 分 类 问题 (任务 T) 上 的 
正确 率 〈 效 果 P) 。 之 所 以 说 在 大 部 分 情况 下 ， 是 因为 逻辑 回归 算法 的 
效果 除了 依赖 于 训练 数据 ， 也 依赖 于 从 数据 中 提取 的 特征 。 假 设 从 邮件 
中 抽取 的 特征 只 有 邮件 发 送 的 时 间 ， 那 么 即使 有 再 多 的 训练 数据 ， 逻 辑 
回归 算法 也 无 法 很 好 地 利用 。 这 是 因为 邮件 发 送 的 时 间 和 邮件 是 否 为 世 
圾 邮件 之 间 的 关联 不 大 ， 而 逻辑 回归 算法 无 法 从 数据 中 习 得 更 好 的 特征 
表达 。 这 也 是 很 多 传统 机 器 学 习 算 法 的 一 个 共同 的 问题 。 


类 似 从 邮件 中 提取 特征 ， 如 何 数字 化 地 表达 现实 世界 中 的 实体 ， 一 直 是 
计算 机 科学 中 一 个 非常 重要 问题 。 如 果 将 图 书馆 中 的 图 书 名 称 储存 为 结 
构 化 的 数据 ， 比 如 储存 在 Excel 表 格 中 ， 那 么 可 以 非常 容易 地 通过 书 名 
查询 一 本 书 是 否 在 图 书馆 中 。 如 果 图 书 的 书 名 都 是 存在 非 结构 化 的 图 片 
中 ， 那 么 要 完成 书 名 查找 任务 的 难度 将 大 大 增加 。 类 似 的 道理 ， 如 何 从 
实体 中 提取 特征 ， 对 于 很 多 传统 机 需 学 习 算 法 的 性 能 有 巨大 影响 。 图 1- 
1 展示 了 一 个 简单 的 例子 。 如 果 通 过 笛 卡 尔 坐 标 系 (cartesian 
coordinates) 来 表示 数据 ， 那 么 不 同 颜色 的 结 点 无 法 被 一 条 直线 划分 。 
如 果 将 这 些 点 映射 到 极 角 坐标 系 (polar coordinates) ， 那 么 使 用 直线 划 
分 束 很 容易 了 。 同 样 的 数据 使 用 不 同 的 表达 方式 会 极 大 地 影响 解决 问题 
、 一 旦 解决 了 数据 表达 和 特征 提取 ， 很 多 人 工 智 能 任务 也 就 解雇 
90%。 
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图 1-1 不 同 的 数据 表达 对 使 用 直线 划分 不 同 颜色 结 点 的 难度 影响 


然而 ， 对 许多 机 器 学 习 问 题 来 说 ， 特 征 提 取 不 是 一 件 简 单 的 事情 。 在 一 
些 复杂 问题 上 ， 要 通过 人 工 的 方式 设计 有 效 的 特征 集合 ， 需 要 很 多 的 时 
间 和 精力 ， 有 时 甚至 需要 整个 领域 数 十 年 的 研究 投入 。 例 如 ， 假 设想 从 
很 多 照片 中 识别 汽车 。 现 在 已 知 的 是 汽车 有 轮子 ， 所 以 希望 在 图 片 中 抽 
取 * 图 片 中 是 否 出 现 了 轮子 ”这 个 特征 。 但 实际 上 ， 要 从 图 卢 的 像素 中 描 
述 一 个 轮子 的 模式 是 非常 难 的 。 虽 然 车 轮 的 形状 很 简单 ， 但 在 实际 图 片 
中 ， 车 轮 上 可 能 会 有 来 自 车 喘 的 阴影 、 金 属 车 轴 的 有 反光， 周围 物品 也 可 
能 会 部 分 遮挡 车 轮 。 实 际 图 片 中 各 种 不 确定 的 因 系 让 我 们 很 难 直 接 抽 取 
这 样 的 特征 。 


既然 人 工 的 方式 无 法 很 好 地 抽取 实体 中 的 特征 ， 那 么 是 否 有 目 动 的 方式 
呢 ? 答案 是 肯定 的 。 深 度 学 习 解雇 的 核心 问题 之 一 就 是 上 自动 地 将 简单 的 
特征 组 合成 更 加 复杂 的 特征 ， 并 使 用 这 些 组 合 特 征 解决 问题 。 深 度 学 习 
是 机 器 学 习 的 一 个 分 支 ， 它 除了 可 以 学 习 特 征 和 任务 之 间 的 关联 以 外 ， 
还 能 目 动 从 简单 特征 中 提取 更 加 复杂 的 特征 。 图 1-2 中 展示 了 深度 学 习 
和 传统 机 器 学 习 在 流程 上 的 差异 。 如 图 1-2 所 示 ， 深 度 学 习 算 法 可 以 从 
数据 中 学 习 更 加 复杂 的 特征 表达 ， 使 得 最 后 一 步 权重 学 习 变 得 更 加 简单 
且 有 效 。 在 图 1-3 中 ， 展 示 了 通过 深度 学 习 解决 图 像 分 类 问题 的 具体 样 
例 。 深 度 学 习 可 以 一 层 一 层 地 将 简单 特征 逐步 转化 成 更 加 复杂 的 特征 ， 
从 而 使 得 不 同类 别 的 图 像 更 加 可 分 。 比 如 图 1-3 中 展示 了 深度 学 习 算 法 
可 以 从 图 像 的 像素 特征 中 逐渐 组 合 出 线条 、 边 、 角 、 简 单 形状 、 复 杂 形 









































状 等 更 加 有 效 的 复杂 特征 。 
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图 1-2 ”传统 机 器 学 习 和 深度 学 习 流 程 对 比 
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图 1-3 ”深度 学 习 在 图 像 分 类 问题 上 的 算法 流程 样 例 


早期 的 深度 学 习 受 到 了 神经 科学 的 启发 ， 它 们 之 间 有 非常 密切 的 联系 。 
科学 家 们 在 神经 科学 上 的 发 现 使 得 我 们 相信 深度 学 习 可 以 胜任 很 多 人 工 
智能 的 任务 。 神 经 科学 家 发 现 ， 如 来 将 小 白鼠 的 视觉 神经 连接 到 听觉 中 
枢 ， 一 段 时 间 之 后 小 鼠 可 以 习 得 使 用 听觉 中 枢 “ 看 ”世界 。 这 说 明 虽 然 哺 
乳 动 物 大 脑 分 为 了 很 多 区 域 ， 但 这 些 区 域 的 学 习 机 制 却 是 相似 的 。 在 这 
一 假想 得 到 验证 之 前 ， 机 器 学 习 的 研究 者 们 通常 会 为 不 同 的 任务 设计 不 
同 的 算法 。 而 且 直 到 今天 ， 学 术 机 构 的 机 器 学 习 领 域 也 被 分 为 了 目 然 语 
言 处 理 、 计 算 机 视觉 和 语音 识别 等 不 同 的 实验 室 。 因 为 深度 学 习 的 通用 
性 ， 深 度 学 习 的 研究 着 往往 可 以 跨越 多 个 研究 方 癌 甚至 同时 活跃 于 所 有 
的 研究 方向 。 下 面 的 1.3 节 将 具体 介绍 深度 学 习 在 不 同方 向 的 应 用 。 


虽然 深度 学 习 领 域 的 研究 人 员 相 比 其 他 机 器 学 习 领 域 更 多 地 受到 了 大 脑 
工作 原理 的 局 发 ， 而 且 媒 体 界 也 经 常 强调 深度 学 习 算 法 和 大 脑 工 作 原 理 
的 相似 性 ， 但 现代 深度 学 习 的 发 展 并 不 拘泥 于 模拟 人 脑 神经 元 和 人 脑 的 


























工作 机 理 。 模 拟人 类 大 脑 也 不 再 是 深度 学 习 研 究 的 主导 方 同 。 我 们 不 应 
该 认为 深度 学 习 是 在 试图 模仿 人 类 大 脑 。 目 前 科学 家 对 人 类 大 脑 学习 机 
制 的 理解 还 不 足以 为 当下 的 深度 学 习 模 型 提供 指导 。 


现代 的 深度 学 习 已 经 超越 了 神经 科学 观点 ， 它 可 以 更 广泛 地 适用 于 各 种 
并 不 是 由 神经 网 络 司 发 而 来 的 机 器 学 习 框架 。 值 得 注意 的 是 ， 有 一 个 领 
域 的 研究 者 试图 从 算法 层 理解 大 脑 的 工作 机 制 ， 它 不 同 于 深度 学 习 的 领 
域 ， 被 称 为 “计算 神经 学 ”(computational neuroscience ) 。 深 度 学 习 领 域 
主要 关注 如 何 搭建 智能 的 计算 机 系统 ， 解 决 人 工 智能 中 遇 到 的 问题 。 计 
算 神 经 学 则 主要 关注 如 何 建立 更 准确 的 模型 来 模拟 人 类 大 脑 的 工作 。 


总 的 来 说 ， 人 工 智 能 、 机 器 学 习 和 深度 学 习 是 非常 相关 的 几 个 领域 。 图 
1-4 总 结 了 它们 之 间 的 关系 。 人 工 入 能 古 一 类 非常 广泛 的 问题 ， 机 器 学 
习 是 解决 这 类 问题 的 一 个 重要 手段 。 深 度 学 习 则 是 机 器 学 习 的 一 个 分 
文 。 在 很 多 人 工 智能 问题 上 ， 深 度 学 习 的 方法 突破 了 传统 机 器 学 习 方 法 
的 瓶 陆 ， 推 动 了 人 工 智 能 领域 的 发 展 。 


















































图 1-4 人 工 智能 、 机 器 学 习 以 及 深度 学 习 之 间 的 关系 图 
1.2 ”深度 学 习 的 及 展 历程 


很 多 读者 可 能 会 认为 深度 学 习 是 一 门 新 技术 ， 所 以 听 到 “深度 学 习 的 历 
史 ” 也 许 会 有 些 慰 讶 。 事 实 上 ， 目 前 大 家 所 熟知 的 “深度 学 习 ” 基 本 上 是 
深层 神经 网 络 的 一 个 代名词 ， 而 神经 网 络 技术 可 以 追溯 到 1943 年 。 深 度 
学 习 之 所 以 看 起 来 像 是 一 门 新 技术 ， 一 个 很 重要 的 原因 是 它 在 21 世 纪 初 
期 并 不 流行 。 神 经 网 络 的 及 展 史 大 致 可 以 分 为 三 个 阶段 ， 在 本 市 中 ， 我 
们 将 简单 介绍 神经 网 络 发 展 历 史上 的 这 三 个 阶段 。 


早期 的 神经 网 络 模型 类 似 于 仿生 机 器 学 习 ， 它 试图 模仿 大 脑 的 学 习 机 
理 。 最 早 的 神经 网 络 数 学 模型 是 由 Warren McCulloch 教授 和 Walter Pitts 
教授 于 1943 年 在 论文 A logical calculus of the ideas immanent in nervous 
activity 9 中 提出 的 。 在 论文 中 ，Warren McCulloch 教授 和 Walter Pitts 教 
授 模 拟人 类 大 脑 神经 元 的 结构 提出 了 McCulloch-Pitts ”Neuron 的 计算 结 
构 。 图 1-5 对 比 了 人 类 神经 元 结构 和 McCulloch-Pitts Neuron 结 构 。 
McCulloch-Pitts Neuron 结 构 大 致 模拟 了 人 类 神经 元 的 工作 原理 ， 它 们 都 
有 一 些 输 入 ， 然 后 将 输入 进行 一 些 变换 后 得 到 得 出 结果 。 虽 然 人 类 神经 
元 处 理 输入 信号 的 原理 目前 还 对 我 们 来 说 还 不 是 完全 清晰 ， 但 
McCulloch-Pitts Neuron 结 构 使 用 了 简单 的 线性 加 权 和 的 方式 来 模拟 这 个 
变换 。 将 n 个 输入 值 提供 给 McCulloch-Pitts Neuron 结构 后 ，McCulloch- 


Pits Neuron 结 构 会 通过 n 个 权重 Y 。 WI ,LW 于 


算 这 n 个 输入 的 加 权 和 ， 然 后 用 这 个 加 权 和 经 过 一 个 阔 值 函数 得 到 一 个 
0 或 1 的 输出 。 



































(a) 人 类 神经 元 结构 (b) McCulloch-Pitts Neuron 结 构 





图 1-5” 人 类 神经 元 结构 和 McCulloch-Pitts Neuron 结 构 对 比 图 


举 一 个 具体 的 例子 来 说 明 McCulloch-Pitts Neuron 结 构 是 如 何 解 决 实际 问 
题 的。 假设 需要 解决 的 问题 是 判断 邮件 是 否 为 垃圾 邮件 ， 那 么 首先 可 以 
将 从 邮件 里 提取 的 n 个 特征 值 作为 输入 传 入 McCulloch-Pitts ”Neuron 结 
构 。McCulloch-Pitts Neuron 结 构 经 过 加 权 和 及 立 值 函数 处 理 可 以 得 到 一 
个 0 或 者 1 的 输出 。 如 果 这 个 输出 为 0， 那 么 相应 的 邮件 为 垃圾 邮件 ， 相 
反 ， 如 果 这 个 输出 为 1， 那 么 相应 的 邮件 不 是 垃圾 邮件 。 


为 了 使 这 种 方法 可 以 精确 地 判断 垃圾 邮件 ， 我 们 需要 对 McCulloch-Pitts 

Neuron 结 构 中 的 权重 进行 特殊 的 设置 。 手 动 设 置 这 些 权 重 上 自然 是 一 种 选 
择 ， 但 通过 人 类 经 验 设 置 权重 的 方式 既 麻 烦 又 很 难 达 到 最 优 的 效果 。 为 
了 让 计算 机 能 够 更 加 自动 且 更 加 合理 地 设置 权重 大 小 ，Frank Rosenblatt 
教授 于 1958 年 提出 了 感知 机 模型 (perceptron) 。 感 知 机 是 首 个 可 以 根 

据 样 例 数据 来 学 习 特 征 权 重 的 模型 。 虽 然 McCulloch-Pitts Neuron 结 构 和 
0 了 现代 机 器 学 习 ， 但 是 它们 也 存在 非常 大 的 局 限 








1969 年 由 Marvin Minsky 教 授 和 Seymour Papert 教 授 出 版 的 Perceptrons: 
An Introduction to Computational Geometry 一 书 中 ， 证 明了 感知 机 模型 只 
能 解决 线性 可 分 问题 ， 第 4 章 中 将 会 更 加 详细 地 介绍 线性 模型 、 线 性 可 
分 问题 。 并 明确 指出 了 感知 机 无 法 解决 异 或 问题 。 而 且 书 中 也 指出 在 当 
时 的 计算 能 力 下 ， 实 现 多 层 的 神经 网 络 是 不 可 能 的 事情 。 这 些 局 限 性 导 
致 了 整个 学 术 界 对 生物 启发 的 机 器 学 习 模型 的 择 击 。 在 书 中 ，Marvin 
Minsky 教 授 和 Seymour Papert 教 授 甚 至 做 出 了 “基于 感知 机 的 研究 注定 将 
失败 ”的 结论 。 这 导致 了 神经 网 络 的 第 一 次 重大 低潮 期 ， 在 之 后 的 十 多 
年 内 ， 基 于 神经 网 络 的 研究 几乎 处 于 停滞 状态 。 


直到 20 世 纪 80 年 代 末 ， 第 二 波 神 经 网 络 研究 因 分 布 式 知识 表达 

(distributed representation ) 和 神经 网 络 反 回 传 播 算法 的 提出 而 兴起 。 分 
布 式 的 知识 表达 的 核心 思想 是 现实 世界 中 的 知识 和 概念 应 该 通过 多 个 神 
经 元 (neuron) 来 表达 ， 而 模型 中 的 每 一 个 神经 元 也 应 该 参与 表达 多 个 
概念 。 例 如 ， 假 设 要 设计 一 个 系统 来 识别 不 同 颜 色 不 同型 号 的 汽车 ， 那 
么 可 以 有 两 种 方法 。 第 一 种 方法 是 设计 一 个 模型 使 得 模型 中 每 一 个 神经 
元 对 应 一 种 颜色 和 汽车 型 号 的 组 合 ， 比 如 “白色 的 小 轿车 ”。 如 果 有 m 种 
颜色 ，m 种 型 号 ， 那 么 这 样 的 表达 方式 需要 nxm 个 神经 元 。 另 一 种 方法 














是 使 用 一 些 神经 元 专门 表达 颜色 ， 比 如 < 白色 ”， 另 外 一 些 神经 元 专门 表 
达 汽车 型 号 ， 比 如 “小 轿车 "。 这 样 “白色 的 小 轿车 "的 概念 可 以 通过 这 丙 
个 神经 元 的 组 合 来 表达 。 这 种 方式 只 需要 nxm 个 神经 元 就 可 以 表达 所 有 
概念 。 而 且 即 使 在 训练 数据 中 没有 出 现 概念 “红色 的 卡车 "， 只 要 模型 能 
够 习 得 < 红色 ”和 "卡车 的 概念 ， 它 也 可 以 推广 到 概念 "红色 的 卡车 *。 分 
布 式 知识 表达 大 大 加 强 了 模型 的 表达 能 力 ， 让 神经 网 络 从 宽度 的 方向 走 
向 了 深度 的 方向 。 这 为 之 后 的 深度 学 习 葛 定 了 基础 。 在 第 4 章 中 将 通过 
具体 的 样 例 来 说 明 深层 的 神经 网 络 是 可 以 很 好 地 解决 类 似 异 或 问题 等 线 
性 不 可 分 问题 的 。 


除了 解决 了 线性 不 可 分 问题 ， 在 20 世 纪 80 年 代 末 ， 研 究 人 员 在 降低 训练 
神经 网 络 的 计算 复杂 度 上 也 取得 了 突破 性 成 就 。David Everett Rumelhart 
教授 、Geoffrey Everest Hinton 教 授 和 Ronald J. Williams 教 授 于 1986 年 在 
上 自然 杂志 上 发 表 的 Learning Representations by Back-propagating errors 文 
章 中 首次 提出 了 反 向 传播 的 算法 (back propagation) ， 此 算法 大 幅 降 低 
了 训练 神经 网 络 所 需要 的 时 间 。 直 到 今天 ， 反 回 传 播 算法 仍然 是 训练 神 
经 网 络 的 主要 方法 。 在 神经 网 络 训练 算法 改进 的 同时 ， 计 算 机 的 发 速 发 
展 也 使 得 80 年 代 末 的 计算 能 力 相 比 70 年 代 有 了 突 飞 狼 进 的 增长 。 于 是 神 
经 网 络 在 80 年 末 到 90 年 代 初 又 迎 来 了 发 展 的 高 峰 期 。 如 今 使 用 得 比较 多 
的 一 些 神经 网 络 结构 ， 比 如 卷 积 神经 网 络 和 循环 神经 网 络 ， 在 这 段 时 间 
都 得 到 了 很 好 的 发 展 。Sepp Hochreiter 教 授 和 Juergen Schmidhuber 教 授 
于 1991 年 提出 的 LSTM 模 型 (long short-term memory) 可 以 有 效 地 对 较 
长 的 序列 进行 建 模 ， 比 如 一 句 话 或 者 一 段 文章 。 直 到 今天 ，LSTM 都 是 
解决 很 多 自然 语言 处 理 、 机 器 翻译 、 语 音 识别 、 时 序 预 测 等 问题 最 有 效 
的 方法 。 在 第 8 章 中 将 更 加 详细 地 介绍 循环 神经 网 络 和 LSTM 模 型 。 


然而 ， 在 神经 网 络 发 展 的 同时 ， 传 统 的 机 器 学 习 算法 也 有 了 突破 性 的 进 
展 ， 并 在 90 年 代 末 逐步 超越 了 神经 网 络 ， 成 为 当时 机 器 学 习 领 域 最 常用 
的 方法 。 以 手写 体 识别 为 例 ， 在 1998 年 ， 使 用 支持 向量 机 (support 
vector ”machine 〉 的 算法 可 以 把 错误 率 降 低 到 0.8%。 这 样 的 精确 度 是 当 
时 的 神经 网 络 无 法 达到 的 。 导 致 这 种 情况 主要 有 两 个 原因 。 首 先 ， 虽 然 
训练 神经 网 络 的 算法 得 到 了 改进 ， 但 在 当时 的 计算 资源 下 ， 要 训练 深层 
的 神经 网 络 仍 然 是 非常 困难 的 。 其 次 ， 当 时 的 数据 量 比较 小 ， 无 法 满足 
训练 深层 神经 网 络 的 需求 。 


随 着 计算 机 性 能 的 进一步 提高 ， 以 及 云 计算 、GPU 的 出 现 ， 到 2010 年 左 
石 ， 计 算 量 已 经 不 再 是 阻碍 神经 网 络 发 展 的 问题 。 与 此 同时 ， 随 着 互联 















































网 + 的 发 展 ， 获 取 海 量 数据 也 不 再 困难 。 这 让 神经 网 络 所 面临 的 几 个 最 
大 问题 都 得 到 解决 ， 于 是 神经 网 络 的 发 展 也 迎 来 了 新 的 高 潮 。 在 2012 年 
ImageNet 举 办 的 图 像 分 类 竞赛 (ImageNet Large Scale Visual Recognition 
Challenge，ILSVRC) 中 ， 由 Alex Krizhevsky 教 授 实 现 的 深度 学 习 系 统 
AlexNet 瓦 得 了 和 冠军 。 自 此 之 后 ， 深 度 学 习 (deep learning) 作为 深层 神 
经 网 络 的 代名词 被 大 家 所 熟知 。 深 度 学 习 的 发 展 也 开局 了 一 个 AI 的 新 时 
代 。 图 1-6 展 示 了 “deep ”learning” 这 个 词 在 最 近 十 年 谷歌 搜索 的 热度 趋 
势 。 从 图 中 可 以 看 出 ， 从 2012 年 之 后 ， 深 度 学 习 的 热度 呈 指 数 级 上 升 ， 
到 2016 年 时 ， 深 度 学 习 已 经 成 为 了 谷歌 上 最 热门 的 搜索 词 。 在 2013 年 ， 
深度 学 习 被 及 省 理工 (MIT) 评 为 了 年 度 十 大 科技 突破 之 一 皇 。 如 今 ， 
深度 学 习 已 经 从 最 初 的 图 像 识别 领域 扩展 到 了 机 器 学 习 的 各 个 领域 。 下 
面 的 1.3 市 将 具体 介绍 目前 深度 学 习 在 一 些 主要 人 工 乔 能 领域 的 应 用 。 
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图 1-6 “deep learning” 最 近 十 年 在 谷歌 搜索 的 热度 趋势 





(此 图 片 基于 于 谷歌 趋势 : https:/www.google.comytrends/， 词 汇 的 热度 按 0-100 分 为 100 个 等 
级 : 











0 表示 最 低 的 热度 ，100 表 示 最 流行 的 搜索 词 ) 


1.3 ”深度 学 习 的 应 用 


深度 学 习 最 早 兴起 于 图 像 识 别 ， 但 是 在 短 短 儿 年 时 间 内 ， 深 上 度 学 习 推 广 
到 了 机 器 学 习 的 各 个 领域 。 如 今 ， 深 度 学 习 在 很 多 机 器 学 习 领 域 都 有 非 
常 出 色 的 表现 ， 在 图 像 识 别 、 语 首 识 别 、 首 频 处 理 、 上 自然 语言 处 理 、 机 
器 人 、 生 物 信息 处 理 、 化 学 、 电 脑 游戏 、 搜 索引 擎 、 网 络 广告 投放 、 医 
学 目 动 诊断 和 金融 等 各 大 领域 均 有 应 用 。 本 市 将 选取 几 个 深度 学 习 应 用 




















比较 广泛 的 领域 进行 详细 的 介绍 。 但 深度 学 习 的 应 用 不 仅 限 于 本 节 中 所 
介绍 的 领域 ， 在 每 个 领域 中 的 应 用 也 不 限于 列举 出 的 几 个 方面 。 


1.3.1 计算 机 视觉 


计算 机 视觉 是 深度 学 习 技 术 最 早 实现 突破 性 成 就 的 领域 。 在 1.2 节 中 介 
绍 过 ， 随 着 2012 年 深度 学 习 算 法 AlexNet 赢 得 图 像 分 类 比赛 

ILSVRC (ImageNet Large Scale Visual Recognition Challenge) 冠军 ， 深 
度 学 习 开 始 受到 学 术 界 广泛 的 关注 。ILSVRC 是 基于 ImageNet 图 像 数据 
0 图 像 识别 技术 比赛 ， 这 个 比赛 在 计算 机 视觉 领域 有 极 高 的 影响 




















图 1-7 展 示 了 历年 ILSVRC 比 赛 的 情况 。 从 图 1-7 中 可 以 看 到 ， 在 深度 学 
习 被 使 用 之 前 ， 传 统计 算 机 视觉 的 方法 在 ImageNet 数 据 集 上 最 低 的 Top5 
错误 率 为 26% 2-。 从 2010 年 到 2011 年 ， 基 于 传统 机 器 学 习 的 算法 并 没有 
带 来 正确 率 的 大 幅 提 升 。 在 2012 年 时 ，Geoffrey Everest Hinton 教 授 的 研 
究 小 组 利用 深度 学 习 技 术 将 ImageNet 图 像 分 类 的 错误 率 大 幅 下 降 到 了 
16%。 而 且 ，AlexNet 深 度 学 习 模 型 只 是 一 个 开始 ， 在 2013 年 的 比赛 
中 ， 排 名 前 20 的 算法 都 使 用 了 深度 学 习 。 从 2013 年 之 后 ，ILSVRC 上 基 
本 就 只 有 深度 学 习 算 法 参赛 了 。 


从 2012 年 到 2015 年 间 ， 通 过 对 深度 学 习 算 法 的 不 断 研 究 ，ImageNet 图 像 
分 类 的 错误 率 以 每 年 4% 的 速度 递减 。 这 说 明 深 度 学 习 完 全 打破 了 传统 
机 器 学 习 算法 在 图 像 分 类 上 的 瓶颈 ， 让 图 像 分 类 问题 得 到 了 更 好 的 解 
决 。 如 图 1-7 所 示 ， 到 2015 年 时 ， 深 上 度 学 习 算 法 的 错误 率 为 4%， 已 经 成 
0 
下 突破。 


在 ImageNet 数 据 集 上 ， 深 度 学 习 不 仅 突破 了 图 像 分 类 的 技术 瓶颈 ， 同 时 
也 突破 了 物体 识别 的 技术 瓶 贷 。 物 体 识别 的 难度 比 图 像 分 类 更 高 。 图 像 
分 类 问题 只 需 判 断 图 片 中 包含 哪 一 种 物体 。 但 在 物体 识别 问题 中 ， 雷 要 
给 出 所 包含 物体 的 具体 位 置 。 而 且 一 张 图片 中 可 能 出 现 多 个 需要 识别 的 
物体 。 图 1-8 展 示 了 ILSVRC2013 物 体 识别 数据 集中 的 样 例 图 片 。 每 一 张 
图 片 中 所 有 可 以 被 识别 的 物体 都 被 不 同 颜 色 的 方 框 标注 了 出 来 。 在 2013 
年 时 ， 使 用 传统 机 器 学 习 算法 可 以 达到 的 MAP (mean average 
precision)〉 9 值 为 0.23。2016 年 时 ， 使 用 了 6 种 不 同 深度 学 习 模 型 的 集成 
算法 (ensemble algorithm)〉 成功 将 MAP 提 高 到 了 0.66。 名 
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图 1-7 ”历年 ILSVRC 图 像 分 类 比赛 最 佳 算 法 的 错误 率 











图 1-8 ILSVRC2013 物 体 识 别 数据 集中 的 样 例 图 片 中 


在 技术 革新 的 同时 ， 工 业界 也 将 图 像 分 类 、 物 体 识 别 应 用 于 各 种 产品 中 
了 。 在 谷歌 ， 图 像 分 类 、 物 体 识别 技术 已 经 被 广泛 应 用 于 谷歌 无 人 驾驶 
车 、YouTube、 人 和 谷 歌 地 图 、 谷 歌 图 像 搜 索 等 产品 中 。 图 1-9 中 展示 了 使 用 
谷歌 图 像 搜索 来 辨别 动物 。 谷 歌 通过 图 像 处理 技 术 可 以 归纳 出 图 片 中 的 
主要 内 容 并 实现 以 图 搜 图 的 功能 。 这 些 技术 在 国内 的 百度 、 了 阿里、 腾讯 
等 科技 公司 也 已 经 得 到 了 广泛 的 应 用 。 
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Best guess for this image: husky with blue eyes 











(a) 在 谷歌 图 片 搜索 中 提供 一 张 哈 士 奇 〈 一 种 狗 ) 的 图 片 ， 得 到 的 结果 为 "husky with blue 
eyes《〈 蓝 色 眼 睛 的 哈士奇 ) ”。 虽 然 从 图 片 中 无 法 确认 眼睛 是 否 为 蓝 色 ， 但 是 谷歌 可 以 非常 精确 
的 识别 出 狗 的 品种 。 


Google a 2 wolf public domain 1o| 电 图 
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About 25,270,000,000 results (0.95 seconds) 


Image size: 
275 x 183 
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\ a | All sizes - Medium - Large 








Best guess for this image: wolf public domain 





(b) 在 谷歌 图 片 搜索 中 提供 一 张 狼 的 图 片 ， 得 到 的 结果 为 “wolf public domain (旷野 上 的 
狼 ) ”。 虽 然 这 张 图 片 和 (a) 中 哈士奇 的 图 片 非常 接近 ， 但 是 谷歌 可 以 非常 精确 的 识别 动物 的 


种 类 。 











图 1-9 通过 谷歌 图 像 搜 索 识 别 动物 


在 物体 识别 问题 中 ， 人 脸 识别 是 一 类 应 用 非 第 广泛 的 技术 。 它 既 可 以 应 
用 于 娱乐 行业 ， 也 可 以 应 用 于 安防 、 风 控 行 业 。 在 娱乐 行业 中 ， 基 于 人 
脸 识别 的 相机 目 动 对 焦 、 上 自动 闫 颜 基本 已 经 成 为 每 一 球 自 担 软件 的 必 备 
功能 。 在 安防 、 风 控 领 域 ， 人 脸 识 别 应 用 更 是 大 大 提高 了 工作 效率 并 市 
省 了 人 力 成 本 。 比 如 在 互联 网 金融 行业 ， 为 了 控制 贷款 风险 ， 在 用 户 注 
册 或 者 贷款 发 放 时 需要 验证 本 人 信息 。 个 人 信息 验证 中 一 个 很 重要 的 步 
又 是 验证 用 户 提 供 的 证 件 和 有 用户 是 同一 个 人 。 通 过 人 脸 识别 技术 ， 这 个 
过 程 可 以 被 更 加 高 效 地 实现 。 

















在 深度 学 习 得 到 广泛 应 用 之 前 ， 基 于 传统 的 机 右 学 习 技 术 并 不 能 很 好 地 
满足 人 脸 识 别 的 精度 要 求 。 人 脸 识 别 的 最 大 挑战 在 于 不 同人 脸 的 差异 较 
小 ， 有 时 同一 个 人 在 不 同 光 照 条 件 、 姿 态 或 者 表情 下 脸 部 的 差异 甚至 会 
比 不 同人 脸 之 间 的 差异 更 大 。 传 统 的 机 器 学 习 算 法 很 难 抽象 出 足够 有 效 
的 特征 ， 使 得 学 习 模型 既 可 以 区 分 不 同 的 个 体 ， 又 可 以 尽量 减少 相同 个 
体 在 不 同 环境 中 的 变化 。 深 度 学 习 技 术 通 过 从 海量 数据 中 目 动 习 得 更 加 
有 效 的 人 脸 特征 表达 ， 可 以 很 好 地 解决 这 个 问题 。 在 人 脸 识 别 数 据 集 
LFW 由- (Labeled Faces in the Wild) 上 ， 基 于 深度 学 习 算 法 的 系统 
DeepID2 可 以 达到 99.47% 的 识别 率 。 














在 计算 机 视觉 领域 ， 光 学 字符 识别 〈optical character recognition ， 
OCR) 也 是 使 用 深度 学 习 较 早 的 领域 之 一 。 所 谓 光 学 字符 识别 ， 就 是 使 
用 计算 机 程序 将 计算 机 无 法 理解 的 图 片 中 的 字符 ， 比 如 数字 、 字 母 、 汉 
字 等 符号 ， 转 化 为 计算 机 可 以 理解 的 文本 格式 。 早 在 1989 年 ，Yann 
LeCun 教 授 发 表 的 论文 Backpropagation Applied to Handwritten Zip Code 
Recognition 将 卷 积 神经 网 络 成 功 应 用 到 了 识别 手写 邮政 编码 的 问题 上 ， 
达到 了 接近 95% 的 正确 率 。 在 MNIST 手 写 体 数字 识别 数据 集 上 ， 最 新 的 
深度 学 习 算 法 可 以 达到 99.77% 的 正确 率 ， 这 也 超过 了 人 类 的 表现 。 第 5 
章 将 更 加 详细 地 介绍 MNIST 手 写 体 数字 识别 数据 集 。 


光学 字符 识别 在 工业 界 的 应 用 也 十 分 广泛 。 在 21 世 纪 初 期 ，Yann LeCun 
教授 将 基于 卷 积 神经 网 络 的 手写 体 数字 识别 系统 应 用 于 银行 支票 的 数额 
识别 ， 这 个 系统 在 2000 年 左右 已 经 处 理 了 美国 全 部 支票 数量 的 
10%~20% 号 。 谷 歌 也 将 数字 识别 技术 用 在 了 谷歌 地 图 的 开发 中 。 谷 歌 实 
现 的 数字 识别 系统 可 以 从 谷歌 街景 图 中 识别 任意 长 度 的 数字 ， 并 在 
SVHN 数 据 集 号 上 可 以 达到 96% 的 正确 率 旦 。 到 2013 年 为 止 ， 这 个 系统 EE 
经 帮助 谷歌 抽取 了 超过 1 亿 个 门牌 号 码 ， 大 大 加 速 了 谷歌 地 图 的 制作 过 
程 并 节省 了 巨额 的 人 力 成 本 。 而 且 ， 光 学 字符 识别 技术 在 谷歌 的 应 用 也 
不 仅 限于 数字 识别 。 谷 歌 图 书 通 过 文字 识别 技术 将 扫描 的 图 书 数字 化 ， 
从 而 实现 图 书 内 容 的 搜索 功能 。 


\ 五 2、 口 
1.3.2 二 首 内 | 
深度 学 习 在 语音 识别 领域 取得 的 成 绩 也 是 突破 性 的 。2009 年 深度 学 习 的 


概念 被 引入 语音 识别 领域 ， 并 对 该 领域 产生 了 巨大 的 影响 。 在 短 短 几 年 
时 间 内 ， 深 度 学 习 的 方法 在 TIMIT 数 据 集 备 上 将 基于 传统 的 混合 高 斯 模 
































型 〈gaussian mixture model，GMM) 的 错误 率 从 21.7% 降 低 到 了 使 用 深 
度 学 习 模型 的 17.9%。 如 此 大 的 提高 幅度 很 快 引 起 了 学 术 界 和 工业 界 的 
广泛 关注 。 从 2010 年 到 2014 年 间 ， 在 语音 识别 领域 的 两 大 学 术 会 议 
IEEE-ICASSP 和 Jnterspeech 上 ， 深 度 学 习 的 文章 呈 现 出 逐年 递增 的 趋 

势 。 在 工业 界 ， 包 括 谷 歌 、 人 苹果、 微软、IBM、 百 度 等 在 内 的 国内 外 大 
型 IT 公司 提供 的 语音 相关 产品 ， 比 如 谷歌 的 Google Now、 苹 果 的 Siri、 
微软 的 Xbox 和 Skype 等 ， 都 是 基于 深度 学 习 算 法 。 


在 2009 年 谷歌 局 动 语音 识别 应 用 时 ， 使 用 的 是 在 学 术 界 已 经 研究 了 30 年 
的 混合 高 斯 模型 。 到 2012 年 时 ， 深 度 学 习 的 语音 识别 模型 已 经 取代 了 混 
合 高 斯 模型 ， 并 成 功 将 谷歌 语音 识别 的 错误 率 降 低 了 20%， 这 个 改进 幅 
度 超过 了 过 去 很 多 年 的 上 总和。 微软 的 研究 人 员 通 过 大 量 实验 得 出 ， 使 用 
深度 学 习 的 算法 比 使 用 混合 高 斯 模型 的 算法 更 能 够 从 海量 数据 中 获 苑 。 
随 看 数据 量 的 加 大 ， 使 用 深度 学 习 柑 型 无 论 在 正确 紊 的 增长 数值 上 还 是 
在 增长 比率 上 都 要 优 于 使 用 混合 高 斯 模型 的 算法 各。 这 样 的 增长 在 语音 
识别 的 历史 上 是 从 未 出 现 过 的 ， 而 深度 学 习 之 所 以 能 完成 这 样 的 技术 突 
人 破 ， 节 主要 的 原因 是 它 可 以 目 动 地 从 海量 数据 中 提取 更 加 复杂 且 有 效 的 
特征 ， 而 不 是 如 高 斯 混合 模型 中 需要 人 工 提取 特征 。 


基于 深度 学 习 的 语音 识别 已 经 被 应 用 到 了 各 个 领域 ， 其 中 最 被 大 家 所 熟 
知 的 应 该 是 苹果 公司 推出 的 Siri 系 统 。Siri 系 统 可 以 根据 用 户 的 语音 输入 
完成 相应 的 操作 功能 ， 这 大 大 方便 了 用 户 的 使 用 。 目 前 ，Siri 已 经 文 持 
包括 中 文 在 内 的 20 种 不 同 语言 。 与 Siri 类 似 ， 谷 歌 也 在 安 捍 《Android) 
系统 上 推出 了 谷歌 语音 搜索 (Google Voice Search) 。 另 外 一 个 成 功 应 
用 语音 识别 的 系统 是 微软 的 同 声 传译 系统 。 在 2012 年 的 微软 亚洲 研究 院 
(Microsoft Research Asia，MSRA) 二 十 一 世纪 计算 大 会 (21st Century 
Computing) 上 ， 微 软 高 级 副 总 裁 Richard Rashid 现 场 演示 了 微软 开发 的 
从 英语 到 汉语 的 同 声 传译 系统 名 -。 该 演讲 受到 了 非常 广泛 的 关注 ， 在 
YouTube 网 站 上 已 经 有 超过 一 百 万 次 的 播放 量 。 同 声 传译 系统 不 仅 要 求 
计算 机 能 够 对 输入 的 语音 进行 识别 ， 它 还 要 求 计 算 机 将 识别 出 来 的 结果 
翻译 成 男 外 一 门 语言 ， 并 将 翻译 好 的 结果 通过 语音 合成 的 方式 输出 。 在 
没有 深度 学 习 之 前 ， 要 完成 同 声 传译 系统 中 的 任意 一 个 部 分 都 是 非常 困 
难 的 。 而 随 着 深度 学 习 的 发 展 ， 语 音 识别 、 机 器 翻译 以 及 语 首 合成 都 实 
现 了 巨大 的 技术 突破 。 如 今 ， 微 软 研 发 的 同 声 传译 系统 已 经 被 成 功 地 应 
用 到 了 Skype 网 络 电 话 中 。 






































1.3.3” 目 然 语言 处 理 


深度 学 习 在 自然 语言 处 理 领 域 的 应 用 也 同样 广泛 。 在 过 去 的 几 年 中 ， 深 
度 学 习 已 经 在 语言 模型 (language ”modeling) 、 机 器 翻译 、 词 性 标注 
(part-of-speech ”tagging) 、 实 体 识别 (named entity recognition, 
NER) 、 情 感 分 析 (sentiment analysis)、 广 告 推荐 以 及 搜索 排序 等 方 
同上 取得 了 突出 成 就 。 与 深度 学 习 在 计算 机 视觉 和 语音 识别 等 领域 的 突 
破 类 似 ， 深 度 学 习 在 自然 语言 处 理 问 题 上 的 突破 也 是 能 够 更 加 智能 、 自 
动 地 提取 复杂 特征 。 在 自然 语言 处 理 领 域 ， 使 用 深度 学 习 实 现 智能 特征 
提取 的 一 个 非常 重要 的 技术 是 单词 同 量 (word embedding) 。 单 词 癌 量 
是 深度 学 习 解 决 很 多 上 述 自然 语言 处 理 问 题 的 基础 加入。 


在 自然 语言 处 理 领 域 ， 一 个 非常 赫 手 的 问题 在 于 自然 语言 中 有 很 多 词 表 
达 了 相近 的 意思 ， 比 如 “ 狗 ” 和 * 犬 ” 束 几 乎 表达 了 同样 的 意思 。 然 

而 “ 狗 ” 和 “ 犬 ” 的 编码 在 计算 机 中 可 能 差别 很 大 ， 所 以 计算 机 束 无 法 很 好 
地 理解 自然 语言 所 表达 的 语义 。 为 了 解决 这 个 问题 ， 研 究 人 员 人 工 建 立 
了 大 量 的 语料库 。 通 过 这 些 语料库 ， 可 以 大 致 刻画 自然 语言 中 单词 之 间 
的 关系 。 在 建立 好 的 语料库 中 ，WordNet 钨 、ConceptNet 吕 和 FrameNet 名 
是 其 中 影响 力 比较 大 的 几 个 。 然 而 语料库 的 建立 需要 花费 很 多 人 力 物 

力 Le 。 单 词 同 量 提供 了 一 种 更 加 灵活 的 方式 来 刻画 单 
词 和 语义 o 


单词 同 量 会 将 每 一 个 单词 表示 成 一 个 相对 较 低 维 度 的 回 量 (比如 100 维 
或 200 维 ) 。 对 于 语义 相近 的 单词 ， 其 对 应 的 单词 同 量 在 空间 中 的 距离 
也 应 该 接近 。 于 是 单词 语义 上 的 相似 度 可 以 通过 空间 中 的 距离 来 描述 。 
单词 同 量 不 需要 通过 人 工 的 方式 设 定 ， 它 可 以 从 互联 网 上 海量 非 标 注 文 
本 中 学 习 得 到 。 使 用 斯 坦 福 大 学 开源 的 GloVe 名 单词 同 量 可 以 得 到 与 单 
词 “frog (青蛙 〉 ”所 对 应 的 单词 同 量 最 相似 的 5 个 单词 分 别 是 “frogs〈( 青 
蛙 复 数 )” “toad〔( 蜂 内 ) ” qitoria( 雨 滨 晨 

属 ) ” “leptodactylidae〈 细 趾 蟾 科 ) ”和 “rana 〈 中 国 林 蛙 ) ”。 从 这 个 样 
例 可 以 看 出 ， 单 词 同 量 可 以 非常 有 效 地 刻画 单词 的 语义 。 通 过 单词 问 量 
还 可 以 进行 单词 之 间 的 运算 。 比 如 用 单词 “king” 所 代表 的 同 量 减 去 单 
词 “man” 所 代表 的 癌 量 得 到 的 结果 向 量 和 单词 “queen” 减 去 “woman” 得 到 
的 结果 癌 量 相似 。 这 说 明 在 单词 同 量 中 ， 己 经 隐 含 了 表达 性 别 的 概念 。 


通过 对 目 然 语 言 中 单词 更 好 地 抽象 与 表达 ， 深 度 学 习 在 上 自然 语言 处 理 的 










































































很 多 核心 问题 上 都 有 突破 性 的 进展 。 机 器 翻译 就 是 其 中 的 一 个 例子 。 图 
1-10 展 示 了 和 谷歌 翻译 提供 的 传统 算法 和 深度 学 习 算法 翻译 不 同 语言 对 的 
质量 对 比 图 。 从 图 1-10 可 以 看 出 ， 在 所 有 的 语言 对 上 ， 深 度 学 习 算 法 都 
可 以 大 幅度 提高 翻译 的 质量 。 根 据 谷歌 的 实验 结 末 ， 在 主要 的 语言 对 

上 ， 使 用 深度 学 习 可 以 将 机 器 翻译 算法 的 质量 提高 55% 到 859%。 表 1-1 对 
比 了 不 同 算法 翻译 同一 句 话 的 结果 。 从 表 中 可 以 直观 地 看 到 深度 学 习 算 
法 市 来 翻译 质量 的 提高 。 在 2016 年 9 月 ， 谷 歌 正式 上 线 了 基于 深度 学 习 
的 中 译 英 软件 。 现 在 在 谷歌 翻译 产品 中 ， 己 经 有 8 种 语言 是 由 基于 深度 
学 习 的 翻译 算法 完成 的 。 
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基于 传统 机 器 学 习 算 法 表现 。 和 基于 深度 学 习 算法 表现 。 @@ 人 工 表现 











图 1-10 不 同 翻译 算法 在 不 同 语言 上 的 翻译 质量 各 (其 中 0 表示 最 低 的 质量 ，6 表 示 最 好 的 质 
量 ) 








表 1-1 不 同 翻译 算法 的 翻译 效果 对 比 表 名 





中 文 原 句 李克强 此 行将 启动 中 加 总 理 年 度 对 话 
机 制 ， 与 加 拿 大 总 理 杜 鲁 多 举行 两 国 总 理 
首次 年 度 对 话 。 

基于 传统 机 器 学 习 算法 Li Keqiang premier added this line to 
的 翻译 结果 start the annual dialogue mechanism with the 


Canadian Prime Minister Trudeau two prime 


ministers held its first annual session. 
基于 深度 学 习 算法 的 翻 Li Keqiang will start the annual dialogue 
译 结果 mechanism with Prime Minister Trudeau of 
Canada and hold the first annual dialogue 
between the two premiers. 
人 工 翻译 结果 Li Keqiang will initiate the annual 
dialogue mechanism between premiers of 
China and Canada during this visit, and hold 
the first annual dialogue with Premier 
Trudeau of Canada. 


情感 分 析 是 自然 语言 处 理 问 题 中 男 外 一 个 非常 经 典 的 应 用 。 情 感 分 析 最 
核心 的 问题 就 是 从 一 段 自然 语言 中 判断 作者 对 评价 的 主体 是 好 评 还 是 差 
评 。 情 感 分 析 在 工业 界 有 着 非常 广泛 的 应 用 。 随 着 互联 网 的 发 展 ， 用 户 
会 在 各 种 不 同 的 地 方 表达 对 于 不 同 产 品 的 看 法 。 对 于 服务 行业 或 者 制造 
业 ， 及 时 掌握 用 户 对 其 产品 或 者 服务 的 评价 是 提高 用 户 满 意 度 非常 有 效 
的 途径 。 在 金融 行业 ， 通 过 分 析 用 户 对 不 同 产品 和 公司 的 态度 可 以 对 投 
资 选择 提供 帮助 。Derwent Capital Markets 于 2012 年 5 月 正式 上 线 ， 它 是 
世界 首 家 通过 对 社交 网 络 Twitter 上 推 文 进行 情感 分 析 来 指导 证 券 交 易 外 
的 对 冲 基 金 公 司 。 在 同年 8 月 的 一 份 调查 中 显示 ， 该 公司 的 平均 收益 率 
1.85% 远 远 超过 了 平均 0.76% 的 收益 率 。 类 似 的 ， 也 有 研究 表明 ， 在 政治 
选举 中 ， 通 过 对 Twitter 上 推 文 情感 分 析 得 出 的 结果 和 通过 传统 的 调查 、 
投票 等 方法 得 出 的 结果 高 度 一 致 名。 在 情感 分 析 问 题 上 ， 深 度 学 习 也 可 
以 大 幅 提 高 算法 的 准确 紊 。 在 斯 坦 福 大 学 开源 的 Sentiment Treebank 数 据 
集 上 名 ， 使 用 深度 学 习 的 算法 可 以 将 语句 层面 的 情感 分 析 正 确 率 从 80% 
提高 到 85.4%。 在 短语 层面 上 ， 使 用 深度 学 习 的 算法 可 以 将 正确 率 从 
71% 提 高 到 80.7% 总。 


1.3.4 人 机 博弈 


如 果 说 深度 学 习 在 图 像 识 别 领 域 上 的 突破 掀起 了 学 术 界 的 研究 浪潮 ， 那 
么 深度 学 习 在 人 机 博弈 上 的 突破 使 得 这 个 概念 被 全 社会 所 熟悉 。 在 北京 
时 间 2016 年 3 月 15 日 的 下 午 ， 人 谷歌 开 发 的 围棋 人 工 知 能 系统 AljphaGo 以 总 
比分 4: 1 战胜 了 韩国 棋 手 李 世 石 ， 成 为 第 一 个 在 19x19 棋 盘 上 战胜 人 次 
围棋 冠军 的 智能 系统 。 虽 然 AlphaGo 不 是 第 一 个 战胜 人 类 世界 冠军 的 系 
统 ， 但 AlphaGo 的 胜利 绝对 是 人 工 智能 历史 上 的 一 座 里 程 碑 。 在 1997 年 























IBM 的 智能 国际 象棋 系统 深蓝 (deep ”blue) 击败 世界 冠军 卡 斯 帕 罗 夫 
时 ， 所 依赖 的 更 多 是 计算 机 的 计算 资源 ， 是 通过 暴力 搜索 (brute- 
force) 的 方式 尝试 更 多 的 下 棋 方 法 从 而 战胜 人 类 。 然 而 这 种 方式 在 围棋 
上 是 完全 不 适用 的 ， 因 为 搜索 围棋 下 子 方法 的 复杂 度 为 10 ”， 而 国际 象 
棋 只 有 10“。 


为 了 战胜 人 类 围棋 志 界 冠军 ，AlphaGo 需 要 使 用 更 加 智能 的 方式 。 深 度 
学 习 技 术 为 这 种 方式 提供 了 可 能 。AlphaGo 主 要 是 由 三 个 部 分 组 成 ， 他 
们 分 别 是 蒙特 卡 罗 树 搜索 (Monte Carlo tree search，MCTS) 、 估 值 网 
络 (value network) 和 走 棋 网 络 (policy network) 。 蒙 特 卡 罗 树 搜索 算 
法 实现 了 对 不 同 落 子 点 的 搜索 ， 不 过 和 之 前 的 纯 暴 力 搜 索 不 同 ， 
AlphaGo 中 使 用 的 蒙特 卡 罗 树 会 根据 估 值 网 络 和 走 棋 网 络 对 沙子 后 局 势 
的 评判 结果 来 更 加 智能 地 寻找 最 佳 落 子 点 。 


AlphaGo 背 后 真正 的 大 脑 是 估 值 网 络 和 走 棋 网 络 ， 而 这 两 个 组 件 都 是 通 
过 深度 学 习 实现 的 。 走 棋 网 络 解决 的 问题 是 给 定 当前 棋盘 ， 预 测 下 一 步 
应 该 在 哪 落 子 。 通 过 在 大 量 人 类 半 棋 高 手 对 春 的 棋谱 获取 的 训练 数据 ， 
走 棋 网 络 能 够 以 57% 的 准确 率 预 测 人 类 围棋 高 手下 一 步 的 落 子 点 。 然 
而 ， 仅 仅 预 测 人 类 高 手 的 落 子 方法 是 不 够 的 ， 为 了 能 够 战胜 人 类 和 冠军 ， 
走 棋 网 络 还 通过 上 自己 跟 目 己 对 研 的 方式 来 进一步 提高 落 子 水 平 。 
AlphaGo 的 另外 一 个 大 脑 是 估 值 网 络 ， 它 解决 的 问题 是 给 定 当 前 的 棋 
盘 ， 判 断 黑 棋 启 的 概率 。 训 练 估 值 网 络 所 使 用 的 数据 就 是 落 子 网 络 目 己 
和 自己 对 穿 时 产生 的 。 通 过 蒙特 卡 罗 树 搜索 的 方法 将 走 棋 网 络 和 估 值 网 
络 这 两 个 大 脑 有 机 地 结合 ，AlphaGo 才 最 终 以 悬殊 的 比分 战胜 了 人 类 的 
围棋 世界 冠军 。 


AlphaGo 战 胜 人 类 世界 冠军 不 是 人 机 博 三 的 终点 ， 相 反 ， 这 只 是 一 个 开 
始 。AlphaGo 的 开发 团队 DeepMind 最 近 又 宣布 了 他 们 的 下 一 个 目标 
星际 争霸 2 名 -。 星 际 争 氏 2 是 暴雪 公司 (Blizzard) 开发 的 一 款 即 时 战略 
游戏 。 在 游戏 中 ， 玩 家 需要 采集 资源 、 建 造 建 筑 、 生 产 战 斗 单 位 来 消灭 
对 方 玩家 。 相 比 围棋 ， 星 际 争 霸 2 对 于 人 工 智 能 系统 设计 的 难度 又 有 指 
数 级 的 提高 。 首 先 ， 围 棋 的 沙子 方式 虽然 多 ， 但 也 是 有 限 的 。 而 人 工 智 
能 操作 星际 争霸 2 时 ， 在 任意 一 个 时 刻 ， 人 工 智 能 系统 需要 同时 《〈 几 乎 
同时 ) 操作 多 个 不 同 单位 ， 而 且 操 作 的 方式 是 完全 开放 的 ， 几 乎 没有 限 
制 ， 所 以 确定 这 些 操 作 很 难 通过 搜索 完成 。 其 次 ， 星 际 争 霸 2 是 一 个 信 
恩 不 对 称 的 系统 。 下 围棋 时 对 奔 双 方 看 到 的 棋盘 都 是 一 样 的 ， 而 星际 争 
霸 2 中 每 个 玩家 只 能 看 到 上 自己 的 地 盘 ， 这 要 求人 工 智 能 系统 对 “局 势 ” 做 

































































出 判断 。 第 三 ， 星 际 争 撕 2 是 即时 对 战 游戏 ， 需 要 计算 机 在 很 短 的 时 间 

内 做 出 判断 ， 这 对 人 工 镶 能 系统 的 计算 速度 有 很 高 的 有 要求。 如 今 暴 雪 公 
司 已 经 正式 开始 了 与 DeepMind 团 队 的 合作 ， 并 将 在 不 久之 后 开放 专门 

为 人 工 知 能 研究 设计 的 星际 争霸 2 的 API。 在 星际 争霸 2 上 ， 人 工 智 能 何 
时 能 战胜 人 类 ， 我 们 将 拭目以待 。 


1.4 深度 学 习 工 具 介 绍 和 对 比 


在 上 面 的 章节 中 已 经 介绍 了 深度 学 习 的 概念 以 及 历史 ， 并 给 出 了 不 少 成 
功 应 用 深度 学 习 的 样 例 。 然 而 ， 要 将 深度 学 习 更 快 且 更 便捷 地 应 用 于 新 
的 问题 中 ， 选 择 一 款 深度 学 习 工 具 是 必 不 可 少 的 步骤 。 这 一 节 将 介绍 深 
度 学 习 工 具 TensorFlow 的 主要 功能 和 特点 ， 并 将 对 比 TensorFlow 和 其 他 
主流 的 开源 深度 学 习 工 具 ， 给 出 本 书 选择 TensorFlow 作 为 主要 介绍 对 象 
的 依据 。TensorFlow 是 谷歌 于 2015 年 11 月 9 日 正式 开源 的 计算 框架 。 
TensorFlow 计 算 框 架 可 以 很 好 地 支持 深度 学 习 的 各 种 算法 ， 但 它 的 应 用 
也 不 限于 深度 学 习 。 因 为 本 书 的 重点 是 介绍 使 用 TensorFlow 实 现 深度 学 
习 算 法 ， 所 以 本 书 中 将 略 去 TensorFlow 对 于 其 他 算法 的 支持 ， 感 兴趣 的 
读者 可 以 在 TensorFlow 的 官方 教程 https://www.tensorflow.org/tutorials 上 
找到 更 多 通过 TensorFlow 实 现 非 深度 学 习 算法 的 样 例 。 


TensorFlow 是 由 Jeff Dean 领 尖 的 谷歌 大 脑 团 队 基于 谷歌 内 部 第 一 代 深 用 
学 习 系 统 DistBelief 改 进而 来 的 通用 计算 框架 。DistBelief 是 谷歌 2011 年 
开发 的 内 部 深度 学 习 工 具 ， 这 个 工具 在 谷歌 内 部 已 经 获得 了 巨大 的 成 
功 。 基 于 DistBelief 的 ImageNet 图 像 分 类 系统 Inception 模 型 赢得 了 
ImageNet2014 年 的 比赛 (ILSVRC) 名 -。 通 过 DistBelief， 谷 歌 在 海量 的 
非 标注 YouTube 视 屏 中 习 得 了 “ 猫 *” 的 概念 ， 并 在 谷歌 图 片 中 开创 了 图 片 
搜索 的 功能 。 使 用 DistBelief 训 练 的 语音 识别 模型 成 功 将 语音 识别 的 错误 
紊 降低 了 25%。 在 一 次 BBC 采 访 中 ， 当 时 的 谷歌 首席 执行 官 Eric Schmidt 
表示 这 个 提高 比率 相当 于 之 前 十 年 的 总 和 鱼 。 


虽然 DistBelief 已 经 被 谷歌 内 部 很 多 产品 所 使 用 ， 但 是 DistBelief 过 于 依 
赖 谷歌 内 部 的 系统 架构 ， 很 难 对 外 开源 。 为 了 将 这 样 一 个 在 谷歌 内 部 已 
经 获得 了 巨大 成 功 的 系统 开源 ， 谷 歌 大 脑 团 队 对 DistBelief 进 行 了 改进 ， 
并 于 2015 年 11 月 正式 公布 了 基于 Apache 2.0 开 源 协 议 的 计算 框架 
TensorFlow。 相 比 DistBelief，TensorFlow 的 计算 模型 更 加 通用 、 计 算 速 
度 更 快 、 文 持 的 计算 平台 更 多 、 文 持 的 深度 学 习 算 法 更 广 而 且 系 统 的 稳 
定性 也 更 高 。 在 本 书后 面 的 章节 中 ， 我 们 将 重点 介绍 TensorFlow 的 使 


















































用 ， 关 于 TensorFlow 平 人 台 本 喘 的 技术 细节 可 以 参考 谷歌 的 论文 
TensorFlow: Large-Scale Machine Learning on Heterogeneous Distriputed 
Systems 守 。 


如 今 在 谷歌 内 部 ，TensorFlow 已 经 得 到 了 广泛 的 应 用 。 在 2015 年 10 月 26 
日 ， 谷 歌 正 式 宣布 通过 TensorFlow 实 现 的 排序 系统 RankBrain 上 线 。 相 比 
一 些 传统 的 排序 算法 ， 使 用 RankBrain 的 排序 结果 更 能 满足 用 户 需 求 。 
在 2015 年 绢 博 (Bloomberg) 的 报道 中 各-， 谷 歌 透露 了 在 谷歌 上 干 种 排 
序 算法 中 ，RankBrain 是 第 三 重要 的 排序 算法 。 基 于 TensorFlow 的 系统 
RankBrain 能 在 谷歌 的 核心 网 页 搜索 业务 中 占据 如 此 重要 的 地 位 ， 可 见 
TensorFlow 在 谷歌 内 部 的 重要 性 。 包 括 网 页 搜索 在 内 ，TensorFlow 已 经 
被 成 功 应 用 到 了 谷歌 的 各 球 产 品 之 中 。 如 今 ， 在 谷歌 的 语 首 搜索 、 广 
告 、 电 商 、 图 片 、 街 景 图 、 翻 译 、YouTube 等 众多 产品 之 中 都 可 以 看 到 
基于 TensorFlow 的 系统 “” 摆 - 一 。 在 经 过 半年 的 答 试 和 思考 之 后 ， 谷 歌 的 
DeepMind 团 队 也 正式 宣布 其 之 后 所 有 的 研究 都 将 使 用 TensorFlow 甸 作为 
实现 深度 学 习 算法 的 工具 。 


除了 在 谷歌 内 部 大 规模 使 用 之 外 ，TensorFlow 也 受到 了 工业 界 和 学 术 界 
的 广泛 关注 。 在 Google IO 2016 的 大 会 上 ，Jeff Dean 提 到 已 经 有 1500 多 
个 GitHub 的 代码 库 中 提 到 了 TensorFlow， 而 只 有 5 个 是 谷歌 官方 提供 

的 。 如 今 ， 包 括 优 步 (Uber) 、Snapchat、Twitter、 京 东 、 小 米 等 国内 
外 科技 公司 也 纷纷 加 入 了 使 用 TensorFlow 的 行列 。 正 如 谷歌 在 
TensorFlow 开 源 原 因 中 所 提 到 的 一 样 ，TensorFlow 正 在 建立 一 个 标准 ， 
使 得 学 术 界 可 以 更 方便 地 交流 学 术 研 究 成 果 ， 工 业界 可 以 更 快 地 将 机 器 
学 习 应 用 于 生产 之 中 。 


除了 TensorFlow， 目 前 还 有 一 些 主流 的 深度 学 习 开 源 工具 。 表 1-2 中 总 结 
了 这 些 工 具 的 主要 情况 。 每 蒜 工 具 都 有 各 自 的 特点 ， 由 于 篇 幅 所 限 ， 在 
本 书 中 不 再 一 一 介绍 每 一 个 工具 目前 的 优 缺 点 ， 感 兴趣 的 读者 可 以 参考 
脚注 中 每 种 工具 的 官方 网 站 给 出 的 信息 。 























表 1-2 主流 的 深度 学 习 开源 工具 总 结 表 名 
工具 名 称 主要 维护 人 员 (或 团 支持 语言 。” 文 持 系统 


体 ) 


Caffe_ w» 加 州 大 学 伯克利 分 校 
视觉 与 学 习 中 心 
Deeplearning4j_ e Skymind 
Microsoft 微软 研究 院 
Cognitive 
Toolkit (CNTK) _ 
(40) 
MXNet_w, 分 布 式 机 器 学 习 社 区 
(DMLC) 
PaddlePaddle 和 百度 
TensorFlow 谷歌 
Theano_ ws 蒙特 利 尔 大 学 
Torch wm Ronan Collobert、 
Soumith 
Chintala (Fackbook) 
Clement 
Farabet (Twitter) 
Koray 


Kavukcuoglu (Google) 


Scala、 
Clojure 


Python、 
C++、 
BrainScript 


C++、 
Python、 
Julia、 
Matlab、 
GOo、R、 
Scala 

C++、 
Python 

Gt+s 
Python 


Python 


Lua、 


LuaJlT、 CC 


Mac 
义 、 


Linux、 
OS 
Windows 


Linux、 
Windows、 
Mac OS 入 、 
Android 


Linux、 
Windows 


Linux、 Mac 
OS X、 
Windows、 
Android、 
iOS 

Linux、 Mac 
OS X 


Linux、 
OS 
Android、 
iOS 

Linux、 
OS 
Windows 


Mac 
义 、 


Mac 
义 、 


Linux、 Mac 
OS 又 、 
Windows、 
Android、 
iOS 








作者 认为 ， 不 同 的 深度 学 习 工 具 都 在 发 展 之 中 ， 比 较 当 前 的 性 能 、 功 能 
固然 是 选择 工具 的 一 种 方法 ， 但 更 加 重要 的 是 比较 不 同 工 具 的 及 展 趋 
势 。 深 度 学 习 本 壬 束 是 一 个 处 于 莲 动 及 展 阶段 的 领域 ， 所 以 对 深度 学 习 
工具 的 选择 ， 作 者 认为 应 该 更 加 看 重工 具 在 开源 社区 的 活跃 程度 。 只 有 
社区 活跃 度 更 高 的 工具 ， 才 有 可 能 跟 上 深度 学 习 本 里 的 发 展 速 度 ， 从 而 
在 未 来 不 会 面临 被 淘汰 的 风险 。 


图 1-11 对 比 了 不 同 深度 学 习 工 具 在 GitHub 上 活跃 程度 的 一 些 指标 。 图 1- 
11 (a) 中 比较 了 不 同 工 具 在 GitHub 上 受 关注 的 程度 。 从 图 中 可 以 看 
出 ， 无 论 是 在 获得 的 星 数 (star) 还 是 在 仓库 被 复制 的 次 数 上 ， 
TensorFlow 都 要 远 远 超过 其 他 的 深度 学 习 工 具 。 如 果 说 图 1-11 (Ca) 只 能 
代表 不 同 深度 学 习 工 具 在 社区 受 关注 程度 ， 那 么 图 1-11 (b) 对 比 了 不 
同 深度 学 习 工 具 社 区 参与 度 。 图 1-11 (b) 中 展示 了 不 同 深度 学 习 工 具 
在 GitHub 上 最 近 一 个 月 的 活跃 讨论 贴 和 代码 提交 请 求 数量 。 活 跃 讨论 帖 
越 多 ， 可 以 说 明 真正 使 用 这 个 工具 的 人 也 就 越 多 ;提交 代码 请 求 数量 越 
多 ， 可 以 说 明 参 与 到 开发 这 个 工具 的 人 也 就 越 多 。 从 图 1-11 (b) 中 可 
以 看 出 ， 无 论 从 哪个 指标 ，TensorFlow 都 要 远 远 超过 其 他 深度 学 习 工 
具 。 大 量 的 活跃 开发 者 再 加 上 谷歌 的 全 力 支 持 ， 作 者 相信 TensorFlow 在 
0 
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(a) 不 同 深度 学 习 工 具 社 区 流行 度 指标 比较 名 
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Cb) 不 同 深度 学 习 工具 社区 参与 度 指标 比较 生 


























图 1-11 不 同 深度 学 习 工 具 在 GitHub 上 活跃 程度 对 比 图 
士 
小 乡 


本 章 对 深度 学 习 做 了 全 方位 的 介绍 。 首 先 1.1 节 介绍 了 人 工 智能 、 机 器 

学 习 以 及 深度 学 习 的 概念 ， 并 解释 了 这 些 概 念 之 间 的 差异 。 人 工 智 能 是 
一 类 非常 广泛 的 问题 ， 它 旨 在 通过 计算 机 实现 类 似 人 类 的 智能 。 机 器 学 
习 是 解决 人 工 智 能 问题 的 一 个 重要 方法 。 深 度 学 习 则 是 机 器 学 习 的 一 个 
分 文 ， 它 在 很 多 领域 突破 了 传统 机 堪 学 习 的 瓶颈 ， 将 人 工 智能 推 癌 了 一 
个 新 的 高 潮 。 然 而 ， 这 样 一 个 突破 性 的 技术 并 不 是 最 近 几 年 凭空 创造 

的 ， 它 所 基于 的 人 工 神经 网 络 (artificial neural network，ANN) 技术 已 
经 发 展 了 大 半 个 世纪 。 不 过 神经 网 络 的 发 展 不 是 一 帆 风 顺 ，1.2 节 完整 

的 介绍 了 它 发 展 的 三 个 起 沙 。 


受到 人 类 大 脑 结构 的 启发 ， 人 工 神经 网 络 的 计算 模型 于 1943 年 首次 提 
出 。 之 后 感知 机 的 发 明 使 得 人 工 神经 网 络 成 为 真正 可 以 从 数据 中 “学 
习 ” 的 模型 。 但 由 于 感知 机 的 网 络 结构 过 于 简单 ， 导 致 无 法 解决 线性 不 
可 分 问题 。 再 加 上 人 工 神经 网 络 所 需要 的 计算 量 太 大 ， 当 时 的 计算 机 无 
法 满足 计算 需求 ， 使 得 人 工 神经 网 络 的 研究 进入 了 第 一 个 寒冬 。 到 20 世 
纪 80 年 代 ， 深 层 神 经 网 络 和 反 回 传播 算法 的 提出 很 好 地 解决 了 这 些 问 
题 ， 让 人 工 神经 网 络 进入 第 二 个 快速 发 展期 。 不 过 ， 在 这 一 时 期 中 ， 以 
支持 向 量 机 为 主 的 传统 机 器 学 习 算 法 也 在 飞速 发 展 。 在 90 年 代 中 期 ， 在 
很 多 机 器 学 习 任 务 上 ， 传 统 机 器 学 习 算 法 超越 了 人 工 神经 网 络 的 精确 
度 ， 使 得 人 工 神 经 网 络 领域 再 次 进入 寒冬 。 直 到 2012 年 前 后 ， 随 着 云 计 
算 和 海量 数据 的 普及 ， 人 工 神经 网 络 以 “深度 学 习 ” 的 名 字 再 次 进入 大 家 
的 视野 。 在 短 短 几 年 时 间 内 ， 深 度 学 习 在 很 多 研究 领域 突破 了 传统 机 器 



































学 习 的 瓶颈 ， 推 动 了 人工 智 能 的 发 展 。 


人 类 大 脑 的 结构 分 为 了 很 多 神经 中 枢 ， 不 同 的 神经 中 枢 处 理 不 同类 型 的 
输入 。 在 很 长 一 段 时 间 ， 神 经 学 家 认为 人 类 大 脑 不 同 的 神经 中 枢 有 不 同 
的 处 理 逻 辑 。 类 似 的 ， 机 器 学 习 领 域 也 一 直 分 为 计算 机 视觉 、 语 音 、 自 
然 语言 处 理 等 多 个 领域 ， 而 且 不 同 领 域 使 用 的 算法 也 有 很 大 区 别 。 然 

而 ， 神 经 学 家 后 来 发 现 人 类 大 脑 不 同 神经 中 枢 的 学 习 算 法 是 一 致 的 。 这 
使 得 人 们 看 到 了 深度 学 习 可 以 应 用 在 多 个 领域 的 理论 可 能 性 。 在 实践 

中 ， 深 度 学 习 也 确实 突破 了 很 多 领域 的 技术 瓶颈 。1.3 节 介绍 了 深度 学 

习 在 计算 机 视觉 、 语 音 、 自 然 语 言 处 理 、 人 机 博弈 等 多 个 领域 上 的 突破 
性 进展 。 在 ImageNet 图 像 分 类 的 问题 上 上， 深度 学 习 成 功 将 错误 率 从 26% 
降低 到 了 3.5%。 在 语音 识别 问题 上 上， 谷歌 通 过 深度 学 习 将 错误 率 降 低 了 
259%， 这 一 改进 幅度 是 过 去 十 年 的 总 和 。 在 自然 语言 处 理 上 ， 基 于 深度 
学 习 的 机 器 翻译 、 搜 索 排 序 、 情 感 分 析 、 自 然 语 言 建 模 等 应 用 都 已 经 在 
国内 外 各 大 科技 公司 内 广泛 使 用 。 由 谷歌 DeepMind 团 队 开 发 的 围棋 人 
机 博弈 系统 AljphaGo 更 是 激 起 了 全 社会 对 深度 学 习 研 究 的 热情 。 如 今 ， 

深度 学 习 已 经 渗透 到 了 工业 界 和 学 术 界 的 每 一 个 领域 。 


要 利用 好 深度 学 习 所 融 来 的 福利 ， 选 择 一 款 好 的 深度 学 习 工 具 必 不 可 
少 。1.4 节 介绍 了 谷歌 开源 的 深度 学 习 工 具 TensorFlow 的 特性 和 在 谷歌 内 
部 的 应 用 ， 并 将 其 和 目前 其 他 主流 的 开源 深度 学 习 工 具 做 了 比较 。 在 谷 
歌 内 部 ，TensorFlow 已 经 被 成 功 应 用 到 语音 搜索 、 广 告 、 电 了 商 、 图 片 、 
街景 图 、 翻 译 、YouTube 等 众多 产品 之 中 。 基 于 TensorFlow 开 发 的 
RankBrain 排 序 算法 在 谷歌 上 千 排 序 算 法 中 排 在 第 三 重要 的 位 置 ， 由 此 
可 见 TensorFlow 在 谷歌 的 重要 地 位 。 而 且 ， 对 于 TensorFlow 的 支持 不 仅 
仅 来 自 谷 歌 。1.4 节 对 比 了 不 同 开 源深 度 学 习 工 具 的 社区 活跃 度 。 在 各 
种 指标 上 ，TensorFlow 的 活跃 程度 都 要 远 远 超过 其 他 工具 。 所 以 ， 本 书 
选择 TensorFlow 作 为 介绍 的 工具 。 在 后 面 的 章节 中 将 具体 介绍 如 何 通 过 
TensorFlow 实 现 各 种 不 同 的 深度 学 习 算 法 ， 以 及 使 用 TensorFlow 时 的 一 
些 最 佳 实践 。 



























































(1)” 本 节 部 分 内 容 参 见 : Goodfellow I, Bengio Y，Courville A. Deep learning [M]. The MIT 
Press,2016. 


(2) 知识 图 库 Ontology 有 时 又 被 称 为 Knowledge Graph。Knowledge Graph 更 多 的 是 指 代 谷歌 内 部 
建立 的 知识 图 库 ， 而 Ontology 更 多 指 代 的 是 知识 图 库 这 个 学 术 领 域 。 

















_ 更 多 关于 WordNet 的 信息 可 以 参考 其 官方 网 站 : https://wordnet.princeton.edu/。 
(4) Mitchell T M, Carbonell J G, Michalski R S. Machine Learning [M]. McGraw-Hill, 2003. 


(5) McCulloch W, Pitts W. A Logical Calculus of the Ideas Immanent in Nervous Activity [J]. Bulletin 
of Mathematical Biophysics Vol 5, 1943. 




















(6) 具体 报道 参见 : https://www.technologyreview.com/lists/technologies/2013/。 




















(7) 在 ImageNet 图 像 分 类 问题 上 ， 大 部 分 研究 都 使 用 Top5 错 误 率 来 评价 模型 优 劣 。 第 6 章 将 更 加 
详细 地 介绍 ImageNet 数 据 集 。 








(8) http: -net.org/challenges/LSVRC/2013/index#task 中 有 更 多 关于 ILSVRC2013 物 体 识别 数 
据 集 的 介 














(9) 数字 出 自 ILSVRC 官 网 : http://image-net.org/challenges/LSVRC/2016/results 。 





(10) 图片 来 自 于 ILSVRC 官 网 : http://image-net.org/challenges/LSVRC/2013/。 











(11) 更 多 关于 人 脸 识 别 数据 集 LFW 的 信息 可 以 参考 其 官方 网 站 : http:/vis- 


www.cs.umass.edwlfw/。 


(12) 数字 出 自 Yann LeCun 教 授 在 CERN 研 讨 会 上 的 报告 Deep Learning and the Future of AT 。 报 
告 资料 可 以 参考 : https://indico.cern.ch/event/510372/。 



































(13) ”SVHN 数 据 集 是 斯 坦 福 大 学 开源 的 数据 集 ， 更 多 关于 该 数据 的 信息 可 以 参考 其 官方 网 站 : 
http://ufldl.stanford.edw/housenumbers/。 














(14) 数字 参见 : Goodfellow I J, Bulatov Y, Ibarz J, et al. Multi-digit Number Recognition from Street 
View Imagery using Deep Convolutional Neural Networks [J]. Computer Science, 2013. 














(15) 更 多 关于 TIMIT 数 据 集 的 信息 可 以 参考 其 官方 网 站 : https://catalog.ldc.upenn.edu/ldc93s1。 


(16) 参见 : Li D. Achievements and Challenges of Deep Learning [J]. Apsipa Transactions on Signal 
& Information Processing, 2015. 

















(17) 演讲 视频 地 址 为 http://vV.youku.com/v_show/id_XNDcyOTUwNjMy.html。 


(18) 参见 : Mikolov T, Sutskever 1, Chen K, et al. Distributed Representations of Words and Phrases 
and their Compositionality [J]. Advances in Neural Information Processing Systems, 2013, 26. 


(19) 参见 : Collobert R, Weston J, Bottou L, et al. Natural Language Processing (Almost) from 


Scratch [J]. Journal of Machine Learning Research, 2011. 

















(20) 更 多 关于 WordNet 的 资料 可 以 参考 其 官方 网 站 : https://wordnet.princeton.edu/。 











(21) 更 多 关于 ConceptNet 的 资料 可 以 参考 其 官方 网 站 : http://conceptnet5.media.mit.edu/。 


























(22) 更 多 关于 FrameNet 的 资料 可 以 参考 其 官方 网 站 : https://framenet.icsi.berkeley.edu/fndrupal/。 








(23) 具体 关于 GloVe 的 介绍 可 以 参考 其 官方 网 站 : http://nlp.stanford.edu/projects/glove/。 


(24 数字 出 自 谷 歌 技 术 博 客 : https://research.googleblog.com/2016/09/a-neural-network-for- 
machine.html。 


(25) ”此 表 中 数据 出 自 谷 歌 技 术 博 客 : https://research.googleblog.com/2016/09/a-neural-network- 
for-machine.html。 





(26) 参见: Bollen J， Mao H, Zeng X. Twitter mood predicts the stock market [J]. Journal of 
Computational Science , 2010. 


(27) 参见: O'Connor B, Balasubramanyan R, Routledge B R, et al. From Tweets to Polls: Linking 
Text Sentiment to Public Opinion Time Series [Cl]// International Conference on Weblogs and Social 
Media, ICWSM 2010, Washington, Dc, Usa, May. DBLP, 2010. 


(28) http://nlp.stanford.edu/sentiment/ 中 给 出 了 更 多 关于 Sentiment Treebank 的 信息 。 


(29) Socher R, Perelygin A, Wu J Y, et al. Recursive deep models for semantic compositionality over 
a sentiment treebank[J]. 2013. 





(30) 具体 报道 参见 : https://deepmind.com/blog/deepmind-and-blizzard-release-starcraft-ii-ai- 
research-environment/。 





(31) 在 第 6 章 中 将 具体 介绍 ILSVRC 比 赛 以 及 Inception 模 型 。 


(32) ”此 数字 来 源 于 : http://www.csmonitor.com/Technology/2015/0914/Google-chairman-We-re- 
making-real-progress- on-artificial-intelligence。 


(33) 参见， Abadi M, Agarwal A, Barham P, et al. TensorFlow: Large-Scale Machine Learning on 
Heterogeneous Distributed Systems [J]. 2016. 


(34) ”具体 报道 参见 : https://www.bloomberg.com/news/articles/2015-10-26/google-turning-its- 
lucrative-web-search-over- to-ai-machines 。 


(35) TensorFlow 官 方 网 站 : https://www.tensorflow.org/versions/r0.9/resources/uses.html 上 列 出 了 
一 些 使 用 TensorFlow 的 样 例 项 目 。 








(36) 具体 报道 参见 谷歌 官方 技术 博客 : https://research.googleblog.com/2016/04/deepmind-moves- 
to-tensorflow.html 。 











(37)_ 表 中 工具 根据 字母 序 排列 。 
(38) Caffe 官 方 网 站 : http://caffe.berkeleyvision.org/。 
(39) Deeplearning4j 官方 网 站 : https://deeplearning4j.org/。 


(40) Microsoft Cognitive Toolkit 官 方 网 站 : https://www.microsoft.com/en- 
us/research/product/cognitive-toolkit/。 


(41) MXNet 官 方 网 站 : http://mxnet.io/。 





(42) PaddlePaddle 官 方 网 站 : http://www.paddlepaddle.org/。 











(43) Theano 官 方 网 站 : http://deeplearning.net/software/theano/。 





(44) Torch 官 方 网 站 : http://torch.ch/。 











(45) 图 中 数据 获取 的 时 间 为 2016 年 11 月 17 日 。 

















(46) 图 中 数据 来 自 于 Github 上 2016 年 10 月 15 日 至 2016 年 11 月 15 日 的 统计 数据 。 


第 2 瘟 ”TensorFlow 坏 境 搭 建 


本 章 将 介绍 如 何 安 装 TensorFlow 环 境 以 及 在 安装 好 的 环境 中 运行 简单 的 
TensorFlow 样 例 程序 。 在 介绍 如 何 安装 TensorFlow 之 前 ，2.1 节 将 首先 介 
绍 TensorFlow 依 赖 的 一 些 主要 工具 包 。 然 后 2.2 节 将 介绍 TensorFlow 的 不 
同安 装 方式 以 及 这 些 安装 方式 所 适用 的 不 同 的 场景 。 最 后 2.3 节 将 给 出 
一 个 用 TensorFlow 完 成 同 量 加 法 的 样 例 。 通 过 这 个 样 例 程 序 ， 读 者 可 以 
测试 安装 好 的 TensorFlow 环 境 ， 同 时 也 可 以 对 TensorFlow 有 一 个 直观 的 
认识 。 


2.1 TensorFlow 的 主要 依赖 包 




















本 节 将 介绍 TensorFlow 依 赖 的 两 个 最 主要 的 工具 包 Protocol Buffer 和 
Bazel。 虽 然 TensorFlow 依 赖 的 工具 包 不 仅 限 于 此 节 中 列 出 来 的 两 个 ， 但 
Protocol _ Buffer 和 Bazel 是 作者 认为 相对 比较 重要 的 ， 在 使 用 TensorFlow 
的 过 程 中 很 有 可 能 会 接触 到 。 因 为 本 书 的 重点 是 介绍 TensorFlow， 所 以 

在 本 节 对 列 出 来 的 工具 包 只 进行 大 致 的 介绍 ， 主 要 目的 是 为 了 不 妨碍 读 
者 对 TensorFlow 的 使 用 和 理解 。 这 些 工 具 的 详细 介绍 可 以 参考 脚注 。 在 

以 下 的 每 个 小 节 将 介绍 一 个 工具 包 的 主要 功能 并 给 出 简单 的 样 例 。 


2.1.1  _ Protocol Buffer 


Protocot Buffer -是 谷歌 开发 的 处 理 结构 化 数据 的 工具 。 何 为 处 理 结构 化 
数据 ? 这 里 我 们 给 出 一 个 例子 。 假 设 要 记录 一 些 用 户 信息 ， 每 个 用 户 的 
言 息 包括 用 户 的 名 字 、ID 和 E-mail 地 址 。 那 么 一 个 用 户 的 信息 可 以 表示 
为 以 下 的 形 去 。 

















name: 张 三 
id: 12345 


email: zhangsan@abc ,com 








上 面 的 用 户 信 息 束 是 一 个 结构 化 的 数据 。 注 意 本 节 中 介绍 的 结构 化 数据 
和 大 数据 中 的 结构 化 数据 的 概念 不 同 ， 本 节 中 介绍 的 结构 化 数据 指 的 是 
拥有 多 种 属性 的 数据 。 比 如 上 述 的 用 户 信 息 中 包含 名 字 、ID 和 E-mail 地 
址 3 种 不 同属 性 ， 那 么 它 就 是 一 个 结构 化 数据 。 当 要 将 这 些 结 构 化 的 用 

户 信 息 持 久 化 或 者 进行 网 络 传输 时 ， 融 需要 先 将 它们 序列 化 。 所 谓 序 列 
化 ， 是 将 结构 化 的 数据 变 成 数据 流 的 格式 ， 简 单 地 说 就 是 变 为 一 个 字符 
串 。 如 何 将 结构 化 的 数据 序列 化 ， 并 从 序列 化 之 后 的 数据 流 中 还 原 出 原 
来 的 结构 化 数据 ， 统 称 为 处 理 结构 化 数据 ， 这 就 是 Protocol ”Buffer 解 决 


的 主要 问题 。 


除 Protocol Buffer 之 外 ， XML 和 JSON 是 两 种 比较 常用 的 结构 化 数据 处 理 
A 比如 将 上 面 的 用 户 信息 使 用 XML 格 式 表 达 ， 那 么 数据 的 格式 


<USer> 
<name> 张 三 </name> 
<id>12345</id> 
<email>zhangsan@abc.com</email> 


</user > 


同样 的 数据 ， 使 用 JSON 的 格式 为 : 


ES 二 册 

li SS 

"email": “zhangsan@abc.com”, 
» 


Protocol ”Buffer 格 式 的 数据 和 XML 或 者 JSON 格 式 的 数据 有 比较 大 的 区 
别 。 首 先 ，Protocol ”Buffer 序 列 化 之 后 得 到 的 数据 不 是 可 读 的 字符 串 ， 
而 是 二 进 制 流 。 其 次 ，XML 或 JSON 格 式 的 数据 信息 都 包含 在 了 序列 化 
之 后 的 数据 中 ， 不 需要 任何 其 他 信息 就 能 还 原 序列 化 之 后 的 数据 。 但 使 
用 Protocol Buffer 时 需要 先 定 义 数 据 的 格式 〈schema) 名。 还 原 一 个 序列 
化 之 后 的 数据 将 需要 使 用 到 这 个 定义 好 的 数据 格式 。 以 下 代码 给 出 了 上 
述 用 户 信息 样 例 的 数据 格式 定义 文件 。 因 为 这 样 的 差别 ，Protocol 
1 数据 要 比 XML 格 式 的 数据 小 3 到 10 倍 ， 解 析 时 间 要 

快 20 到 100 倍 。 


message usert{ 
optional string name = 1; 


required int32 id = 2; 


repeated String email = 3; 


Protocol Buffer 定义 数据 格式 的 文件 一 般 保 存在 .proto 文 件 中 。 每 一 个 
message 代 表 了 一 类 结构 化 的 数据 ， 比 如 这 里 的 用 户 信息 。message 里 面 
定义 了 每 一 个 属性 的 类 型 和 名 字 。Protocol _ Buffer 里 属性 的 类 型 可 以 是 
像 布 尔 型 、 整 数 型 、 实 数 型 、 字 符 型 这 样 的 基本 类 型 ， 也 可 以 是 另外 一 
个 message。 这 样 大 大 增加 了 Protocol ”Buffer 的 灵活 性 。 在 message 中 ， 
Protocol Buffer 也 定义 了 一 个 属性 是 必须 的 (required) 还 是 可 选 的 
(optional)， 或 者 是 可 重复 的 (repeated) 。 如 果 一 个 属性 是 必须 的 
Crequired) ， 那 么 所 有 这 个 message 的 实例 都 需要 有 这 个 属性 e_-; 如 果 
一 个 属性 是 可 选 的 (optional〉， 那 么 这 个 属性 的 取 值 可 以 为 空 ， 如 果 
一 个 属性 是 可 重复 的 (repeated) ， 那 么 这 个 属性 的 取 值 可 以 是 一 个 列 
表 。 还 是 以 用 户 信 息 为 例 ， 所 有 用 户 都 霸 要 有 ID， 所 以 ID 这 个 属性 是 必 
须 的 ; 不 是 所 有 用 户 都 填写 了 姓名 ， 所 以 姓名 这 个 属性 是 可 选 的 ; 一 个 
用 户 可 能 有 多 个 E-mail 地 址 ， 所 以 E-mail 地 址 是 可 重复 的 。 


Protocol Buffur 是 TensorFlow 系 统 中 使 用 到 的 重要 工具 ，TensorFlow 中 的 
数据 基本 都 是 通过 Protocol Buffer 来 组 织 的 。 在 后 面 的 章节 中 将 看 到 
Protocol Buffer 是 如 何 被 使 用 的 。 分 布 式 TensorFlow 的 通信 协议 gRPC 也 
是 以 Protocol Buffer 作 为 基础 的 。 


2.1.2 Bazel 


Bazel 和 是 从 谷歌 开源 的 自动 化 构建 工具 ， 人 谷歌 内 部 绝 大 部 分 的 应 用 都 是 
通过 它 来 编译 的 。 相 比 传统 的 Makefile、Ant 或 者 Maven，Bazel 在 速度 、 
可 伸缩 性 、 灵 活性 以 及 对 不 同 程序 语言 和 平台 的 文 持 上 都 要 更 加 出 色 。 
TensorFlow 本 里 以 及 谷歌 给 出 的 很 多 官方 样 例 都 是 通过 Bazel 来 编译 的 。 
这 一 小 节 将 简单 介绍 Bazel 是 怎样 工作 的 。 


项 目 空间 (workspace) 是 Bazel 的 一 个 基本 概念 宇 。 一 个 项 目 空间 可 以 简 
单 地 理解 为 一 个 文件 夹 ， 在 这 个 文件 夹 中 包含 了 编译 一 个 软件 所 需要 的 
源 代码 以 及 输出 编译 结果 的 软 连接 (symbolic 1link) 地 址 。 一 个 项 目 空 
间 内 可 以 只 包含 一 个 应 用 (比如 TensorFlow) ， 这 种 情况 在 2.2.3 小 节 中 
将 会 用 于 从 源码 安装 TensorFlow。 一 个 项 目 空 间 也 可 以 包含 多 个 应 用 。 
































一 个 项 目 空间 所 对 应 的 文件 夹 是 这 个 项 目的 根 目 录 ， 在 这 个 根 目 雷 
要 有 一 个 WORKSPACE 文 件 ， 此 文件 定义 了 对 外 部 资源 的 依赖 关系 。 
文件 也 是 一 个 合法 的 WORKSPACE 文 件 。 


在 一 个 项 目 空间 内 ，Bazel 通 过 BUILD 文件 来 找到 需要 编译 的 目标 8 一 。 
BUILD 文件 采用 一 种 类 似 于 Python 的 语法 来 指定 每 一 个 编译 目标 的 输 
入 、 输 出 以 及 编译 方式 。 与 Makefile 这 种 比较 开放 式 的 编译 工具 不 同 ， 
Bazel 的 编译 方式 是 事先 定义 好 的 。 因 为 TensorFlow 主 要 使 用 Python 语 
言 ， 所 以 这 里 都 以 编译 Python 程序 为 例 。Bazel 对 Python 文 持 的 编译 方式 
只 有 三 种 : py_binary、py_library 和 py_test 2-。 其 中 py_binary 将 Python 程 
序 编译 为 可 执行 文件 ，py_test 编 译 Python 测 试 程序 ，py_library 将 Python 
程序 编译 成 库 函 数 供 其 他 py_binary 或 py_test 调 用 。 下 面 给 出 了 一 个 简单 
的 样 例 来 说 明 Bazel 是 如 何 工 作 的 。 如 下 所 示 ， 在 样 例 项 目 空间 中 有 4 个 
文件 : WORKSPACE、BUILD、hello_main.py 和 hello_lib.py。 











-rw-rw-r-- root root 208 BUILD 


-rw-rw-r-- root root 48 hello_1lib.py 
-rw-rw-r-- root root 47 hello_main.py 
-rw-rw-r-- root root 0 WORKSPACE 


WORKSPACE 给 出 此 项 目的 外 部 依赖 关系 。 为 了 简单 起 见 ， 这 里 使 用 一 
个 空 文件 ， 标 明 这 个 项 目 没 有 对 外 部 的 依赖 。hello_lib.py 完 成 打 
印 “Hello World” 的 简单 功能 ， 它 的 代码 如 下 : 


def print_hello world(): 


print("Hello World") 


过 调用 hello_lib.py 中 定义 的 函数 来 完成 输出 ， 它 的 代码 
下 


import hello_1ib 


hello_ lib.print_hello world() 


在 BUILD 文件 中 定义 了 两 个 编译 目标 : 


py_library( 
name = "hello lib", 
srcs = [ 


"hello_1lib.py", 


] 
) 
py_binary( 
name = "hello _ main", 
Sose li 
"hello main.py", 
]， 
deps = [ 


":hello 1lib", 


从 这 个 样 例 中 可 以 看 出 ，BUILD 文 件 是 由 一 系列 编译 目标 组 成 的 。 定 义 
编译 目标 的 先后 顺序 不 会 影响 编译 的 结果 。 在 每 一 个 编译 目标 的 第 一 行 
要 指定 编译 方式 ， 在 这 个 样 例 中 就 是 py_library 或 者 py_binary。 在 每 一 
个 编译 目标 中 的 主体 需要 给 出 编译 的 具体 信息 。 编 译 的 具体 信息 是 通过 
定义 name，srcs，deps 等 属性 完成 的 。name 是 一 个 编译 目标 的 名 字 ， 这 

















个 名 字 将 被 用 来 指 代 这 一 条 编译 目标 。srcs 给 出 了 编译 所 需要 的 源 代 
码 ， 这 一 项 可 以 是 一 个 列表 。deps 给 出 了 编译 所 需要 的 依赖 关系 ， 比 如 
样 例 中 hello_main.py 需 要 调用 hello_lib.py 中 的 函数 ， 所 以 hello_main 的 编 
译 目标 中 将 hello_lib 作 为 依赖 关系 。 在 这 个 项 目 空间 中 运行 编译 操作 
bazel build :hello_main 将 得 到 类 似 以 下 的 结果 : 











root root 74 bazel-bazel -> ~/.cache/bazel/_bazel_root/0ale386d667563a2d9ed561a4f7d1a3e/bazel/ 
root root 104 bazel-bin -> ~/.cache/bazel/_bazel_root/0ale386d667563a2d9ed561a4f7d1a3e/bazel/bazel-out/local-fastbuild/bin/ 
Irwxrwxrwx 1 root root 109 bazel-genfiles -> ~/.cache/bazel/_bazel_root/0ale386d667563a2d9ed561a4f7d1a3e/bazel/bazel-out/local-fastbuild/genfiles/ 
root root 84 bazel-out -> ~/.cache/bazel/_bazel_root/0ale386d667563a2d9ed561a4f7d1a3e/bazel/bazel-out/ 

root root 109 bazel-testlogs -> ~/.cache/bazel/_bazel_root/0ale386d667563a2d9ed561a4f7d1a3e/bazel/bazel-out/local-fastbuild/testlogs/ 
-rw-rw-r—— 1 root root 208 BUILD 
-rwW-rw-r— 1 root root 48 hello_lib.py 
-rw-rw-r-- 1 rootroot 47 hello_main.py 
-rw-rw-r 一 1 root root 0 WORKSPACE 


从 上 面 的 结果 可 以 看 到 ， 在 原来 4 个 文件 的 基础 上 ，Bazel 生 成 了 其 他 一 
些 文件 来 。 这 些 新 生成 的 文件 夹 就 是 编译 的 结果 ， 它 们 都 是 通过 软 连接 
的 形式 放 在 当前 的 项 目 空间 里 。 实 际 的 编译 结果 文件 都 会 保存 到 
~/.cache/bazel 目 录 下 ， 这 是 可 以 通过 output_user_root 或 者 output_base 参 
数 来 改变 的 eS。 在 这 些 编译 出 来 的 结果 当中 ，bazel-bin 目 录 下 存放 了 编 
译 产 生 的 二 进 制 文件 以 及 运行 该 二 进 制 文件 所 需要 的 所 有 依赖 关系 。 在 
当前 目录 下 运行 bazel-bin/hello_main 就 会 在 屏幕 输出 “Hello World”。 其 
他 编译 结果 在 本 书 中 使 用 较 少 ， 这 里 束 不 再 痪 述 。 











2.2 ” ”TensorFlow 安 装 


TensorFlow 提 供 了 多 种 不 同 的 安装 方式 ， 本 小 节 将 逐一 介绍 通过 Docker 
安装 、 通 过 pip 安 装 以 及 从 源码 安装 。 


2.2.1 ”使 用 Docker 安 装 


Docker 2 是 新 一 代 的 虚拟 化 技术 ， 它 可 以 将 TensorFlow 以 及 TensorFlow 
的 所 有 依赖 关系 统一 封装 到 Docker 镜 像 当 中 ， 从 而 大 大 简化 了 安装 过 
程 。 通 过 Docker 运 行 应 用 时 需要 先 安装 Docker。Docker 文 持 大 部 分 的 操 
作 系 统 ， 下 面 列 出 了 最 主要 的 一 些 。 


e。 Linux 系 统 : Ubuntu、CentOS、Debian、 红 帽 企 业 版 (Red Hat 
Enterprise Linux ) 等 。 

。 Mac OS XX: 10.10.3 Yosemite 或 以 上 。 

e。 Windows : Windows 7 或 以 上 。 





如 何 安装 /使 用 Docker 不 是 本 书 重点 ， 这 里 就 不 再 介绍 在 不 同 操作 系统 
下 如 何 安装 Docker 加 -。 当 Docker 安 装 完 成 后 ， 只 需要 使 用 一 个 打包 好 的 
Docker 镜 像 。 对 于 TensorFlow 发 布 的 每 一 个 版 本 ， 谷 歌 都 提供 了 4 个 官 
方 镜像 。 表 2-1 给 出 了 这 些 镜 像 的 名 称 以 及 镜像 中 的 包含 的 内 容 。 


表 2-1 TensorFlow 官 方 Docker 镜 像 列表 





镜像 名 称 是 否 文 持 GPU 是 否 含 有 源码 
tensorflow/tensorflow:0.9.0 ”人 否 合 
tensorflow/tensorflow:0.9.0- 人 否 是 

devel 

tensorflow/tensorflow:0.9.0- 是 否 

gpu 

tensorflow/tensorflow:0.9.0- 是 是 

devel-gpu 


镜像 的 标签 (冒号 后 面 的 部 分 ) 给 出 了 TensorFlow 的 版 本 。 本 书 的 绝 大 
部 分 代码 将 统一 使 用 版 本 0.9.0 芋 。 才 云 科技 也 提供 了 TensorFlow 的 相关 
镜像 cargo.caicloud.io/tensorflow/ tensorflow:0.12.0 只。 与 官方 镜像 类 似 ， 
0.12.0 表 示 TensorFlow 版 本 。 如 果 TensorFlow 推 出 更 新 的 版 本 ， 此 版 本 号 
可 以 被 蔡 换 为 更 新 的 版 本 写 。 在 官方 镜像 的 基础 上 ， 才 云 科 技 提供 的 镜 
像 进 一 步 整 合 了 其 他 机 器 学 习 工 具 包 以 及 TensorFlow 可 视 化 工具 
TensorBoard 号 ， 使 用 起 来 可 以 更 加 方便 。 才 云 科 技 即 将 上 线 TensorFlow 
的 公有 云 平 台 caicloud.io， 在 此 平台 上 可 以 直接 运行 TensorFlow 程 序 ， 

从 而 省 去 了 安装 的 过 程 。 


当 Docker 安 装 完成 之 后 ， 可 以 通过 以 下 命令 来 启动 一 个 TensorFlow 容 器 
号 。 在 第 一 次 运行 的 时 候 ，Docker 会 自动 下 载 镜 像 。 





$ docker run -it -p 8888:8888 -p 6006:6006\ 


cargo.caicloud.io/tensorflow/ tensorflow:0.12.0 


在 这 个 命令 中 ，-p 8888:8888 将 容器 内 运行 的 Jupyter 旦 服务 映射 到 本 地 
机 器 ， 这 样 在 浏览 器 中 打开 localhost:8888 就 能 看 到 类 似 下 图 的 Jupyter 界 
面 。 在 此 镜像 中 运行 的 Japyter 是 一 个 网 页 版 的 代码 编辑 器 ， 它 文 持 创 
建 、 上 传 、 修 改 和 运行 Python 程序 。 通 过 Jupyter， 才 云 科技 提供 了 本 书 
所 有 的 样 例 程序 ， 如 图 2-1 所 示 。 


全 Jupyter De 


Files Running Clusters 


~ 从 1 Deep_Learning_with_TensorFlow 1 0.12.0 


区 | 本 | 包 | 世 | 全 
9 品 
马 


图 2-1 才 云 科技 提供 的 TensorFlow 镜 像 Jupyter 页 面 示意 图 


-p ”6006:6006 将 容器 内 运行 的 TensorFlow 可 视 化 工具 TensorBoard 映 射 到 
本 地 机 器 ， 通 过 在 浏览 器 中 打开 localhost:6006 就 可 以 将 TensorFlow 在 训 
练 时 的 状态 、 图 片 数据 以 及 神经 网 络 结构 等 信息 全 部 展示 出 来 。 此 镜像 
会 将 所 有 输出 到 /log 目 录放 下 的 日 志 全 部 可 视 化 。 有 具体 如 何 使 用 
TensorBoard 将 在 第 9 章 中 详细 介绍 。 


虽然 文 持 GPU 的 Docker 镜 像 ， 但 是 要 运行 这 些 镜像 需要 安装 最 新 的 
Nvidia 驱动 以 及 nvidia-docker 9-。 在 安装 完成 nvidia-docker 之 后 ， 可 以 通 
过 以 下 的 命令 运行 文 持 GPU 的 TensorFlow 镜 像 。 在 镜像 启动 之 后 可 以 通 
过 和 上 面 类 似 的 方式 使 用 TensorFlow。 














$ nvidia-docker run -it -p 8888:8888 -p 6006:6006 \ 


cargo.caicloud.io/tensorflow/tensorflow:0.12.0-gpu 


2.2.2 ”使 用 pip 安 装 


pip 是 一 个 安装 、 管 理 Python 软 件 包 的 工具 吓 ， 通过 pip 可 以 安 对 已 经 打 
包 好 的 TensorFlow 以 及 TensorFlow 所 需要 的 依赖 和 关系。 目前 TensorFlow 

只 提供 了 部 分 操作 系统 下 打包 好 的 安装 文件 ， 在 其 他 操作 系统 下 安装 或 
吉 需 要 安装 定制 化 代码 的 TensorFlow 请 参 参考 2.2.3 小 节 。 通 过 pip 安 装 可 以 
分 为 以 下 三 步 ， 


第 一 步 : 安装 pip 


# 在 Ubuntu/Linux 64-bit 环 境 下 安装 。 


$ sudo apt-get install python-pip python-dev 


# 在 Mac 0S X 环 境 下 安装 。 
$ sudo easy_install pip 


$ sudo easy_install --upgrade six 


第 二 步 : 找到 合适 的 安装 包 
仪 支持 CPU 的 TensorFlow 安 装 包 有 : 


# Ubuntu/Linux 64-bit，Python 2.7 环 境 。 


$ export TF_BINARY_ URL=https://storage.googleapis.com/tensorf 
0.9.0-cph27-none-linux x86_64.whl 


# Ubuntu/Linux 64-bit，Python 3.4 环 境 。 


$ export TF_BINARY_ URL=https://storage.googleapis.com/tensorf 
0.9.0-cp34-cp34m-1linux_x86_64.whl 


# Ubuntu/Linux 64-bit，CPU only，Python 3.5 环 境 。 


$ export TF_BINARY_ URL=https://storage.googleapis.com/tensorf 
0.9.0-cp35-cp35m-linux_x86_64.whl 


# Mac 0S X，Python 2.7 环 境 。 


$ export TF_BINARY_ URL=https://storage.googleapis.com/tensorf 
0.9.0-py2-none-any.whl 


# Mac 0S X，Python 3.4 or 3.5 环 境 。 


$ export TF_BINARY URL=https://storage.googleapis.com/tensorf 
0.9.0-py3-none-any.whl 


前 只 有 在 安装 了 CUDA toolkit 7.5 和 CuDNN v4 的 64 位 Ubuntu 下 可 以 通 
eh 的 TensorFlow， 对 于 其 他 系统 或 者 其 他 
CUDA/CuDNN 版 本 的 用 户 ， 则 需要 从 源码 进行 安装 来 文 持 GPU 使 用 。 
如 何 从 源码 进行 安装 将 在 2.2.3 小 节 中 详 述 。 下 面 给 出 了 支持 GPU 的 
TensorFlow pip 安 装 包 的 URL: 


# Python 2.7 环境 


$ export TF_BINARY_ URL=https://storage.googleapis.com/tensorf 
0.9.0-cph27-none-1linux x86_64.whl 


## Python 3.4 环 境 


$ export TF_BINARY_ URL=https://storage.googleapis.com/tensorf 
0.9.0-cph34-cp34m-1linux_x86_64.whl 


# Python 3.5 环 境 


$ export TF_BINARY_ URL=https://storage.googleapis.com/tensorf 
0.9.0-chp35-cp35m-linux_x86_64.whl 


第 三 步 : 通过 pip 安 装 TensorFlow 


# Python 2 环境 


$ sudo pip install --upgrade $TF_BINARY_URL 


# Python 3 环境 


$ sudo pip3 install --upgrade $TF_BINARY_URL 


通过 这 三 步 ，TensorFlow 环 境 就 安装 完成 了 。 


2.2.3 ”从 源 代码 编译 安装 


从 源 代 码 安装 TensorFlow 的 过 程 主要 就 是 将 TensorFlow 源 代码 编译 成 pip 
安装 包 的 过 程 。 将 TensorFlow 的 源 代码 编译 为 pip 所 使 用 的 wheel 文 件 之 
后 ， 通 过 2.2.2 小 节 中 介绍 的 pip ”install 的 方法 就 可 以 完成 安装 。 在 编译 
TensorFlow 源 代码 之 前 需要 先 安装 TensorFlow 所 依赖 的 其 他 工具 包 。 不 
同 操 作 系 统 下 需要 安装 的 工具 包 上 略微 有 一 些 差 别 ， 而 且 在 不 同 操作 系统 
下 安装 这 些 工 具 包 的 方法 也 不 大 一 样 ， 这 一 小 节 将 以 Ubuntu ”14.04 和 
Mac OS XX 为 例 来 介绍 如 何 安 装 TensorFlow 依 赖 的 工具 包 鱼 。 


在 Ubuntu 14.04 下 安装 依赖 的 工具 包 


首先 需要 安装 2.1.2 小 节 中 介绍 的 编译 工具 Bazel。 安 装 Bazel， 首 先 要 安 
六 JDK8。 以 下 代码 给 出 了 安装 JDK8 的 方法 。 





sudo apt-get install software-properties-common 
sudo add-apt-repository ppa:webupd8team/java 


sudo apt-get update 


{t {FW 人 女 分 


sudo apt-get install oracle-java8-installer 


然后 安装 Bazel 的 其 他 依赖 的 工具 包 : 


$ sudo apt-get install pkg-config zip g++ ZJlLib1g-dev unzip 


接着 在 Bazel 的 GitHub 发 布 页 面 下 载 安装 包 
(https://github.com/bazelbuild/bazel/releases/tag/0.3.1) 。 其 中 0.3.1 为 
Bazel 的 厂 本 号 。 如 果 有 更 新 的 版 本 ， 可 以 相应 的 蔡 换 上 面 连接 中 的 版 

本 号 。 在 这 个 页 面 中 下 载 安装 包 bazel-0.3.1-jdk7-installer-linux- 
x86_64.sh， 然 后 束 可 以 通过 这 个 安装 包 来 安装 Bazel。 以 下 代码 实现 了 
Bazel 的 安装 过 程 。 











$ chmod +x bazel-0.3.1-jdk7-installer-linux-x86 64.sh 
$ ./bazel-0.3.1-jdk7-installer-linux-x86_64.sh -user 2- 


$ export PATH="$PATH:$HOME/bin" 


Bazel 安 装 完 成 后 还 需要 通过 以 下 代码 来 安装 TensorFlow 的 依赖 的 其 他 工 
具 包 。 


# Python 2.7 环 境 


$ sudo apt-get install python-numpy swig python-dev python- 
wheel 


# Python 3.x 环 境 


$ sudo apt-get install python3-numpy swig python3- 
dev python3-wheel 


如 果 要 支持 GPU， 那 么 还 需要 安装 Nvidia 的 Cuda Toolkit (版 本 需要 大 于 
或 等 于 7.0) 和 cuDNN (版 本 需要 大 于 或 等 于 v2) 。 而 且 TensorFlow 只 文 





持 Nvidia 计 算 能 力 (compute capability) 大 于 3.0 的 GPU。 比 如 Nvidia 
Titan、Nvidia Titan X、Nvidia K20、Nvidia K40 等 都 满足 要 求 名。 


Cuda Toolkit 的 安装 包 以 及 安装 方法 可 登录 
https://developer.nvidia.com/cuda-downloads 获 得 。 在 根据 引导 填写 完 操 
作 系 统 相 关 参 数 之 后 ， 访 网 站 将 提供 Cuda ”7.5 的 安装 包 及 详细 安装 方 
法 。 登 录 https:/developer.nvidia.comy/cudnn 可 下 载 cuDNN 的 安装 包 。 在 
下 载 之 前 需要 先 注 册 ， 但 注册 是 完全 免费 的 。 注 册 完 成 后 可 以 下 载 
cuDNN v4 Library for Linux， 其 中 v4 可 以 蔡 换 成 更 新 的 版 本 。 下 载 完 成 
后 ， 需 要 通过 以 下 命令 把 下 载 下 来 的 安装 包 复 制 到 Cuda 的 目录 〈 这 里 假 


设 是 /usr/local/cuda) : 








tar xvzf cudnn-7.5-linux-x64-v4.tgz 


sudo cp cudnn-7.5-1inux-x64- 
v4/cudnn.h /usr/local/cuda/include 


sudo cp cudnn-7.5-l1inux-x64- 
v4/libcudnn* /usr/local/cuda/l1ib64 


sudo chmod a+r /usr/local/cuda/include/cudnn.h 和 


/Usr/local/cuda/l1ib64/ libcudnn* 


在 Mac OS X 下 安 状 依赖 工具 包 
Homebrew 是 Mac OS X 下 一 个 软件 安装 工具 中， 通过 这 个 工具 可 以 很 方 


便 地 安装 比如 Bazel，SWIG 等 TensorFlow 的 依赖 工具 。Homebrew 自 己 的 
安装 过 程 也 很 简单 ， 以 下 代码 给 出 了 它 的 安装 方法 : 


/usr/bin/ruby -e "$(curl -fsSL \ 


https://raw.githubusercontent.com/Homebrew/install/master 


安装 完 Homebrew 后 就 可 以 通过 brew 来 安装 Bazel 和 SWIG: 


$ brew install bazel swig 


然后 可 以 通过 easy_install 来 安装 Python 相 关 的 依赖 工具 : 


sudo easy_install -U six 
sudo easy_install -U numpy 


sudo easy_install wheel 


奶奶 切 仇 


sudo easy_install ipython 


如 果 需 要 支持 GPU， 在 安装 Cuda Toolkit 和 cuDNN 之 前 ， 还 需要 通过 
Homebrew 安 装 GNU coreutils: 


$ brew install coreutils 


和 Ubuntu 14.04 类 似 ，https://developer.nvidia.com/cuda-downloads 网 站 提 
供 了 安装 最 新 Cuda Toolkit 的 安装 包 与 安装 方法 。 但 在 Mac OS X 下 可 以 
通过 Homebrew Cask 来 直接 安装 : 





$ brew tap caskroom/cask 


$ brew cask install cuda 


Cuda ” Toolkit 安装 完成 之 后 需要 将 环境 变量 加 入 到 ~/.bash_profile 文 件 
中 : 





export CUDA HOME=/usr/local/cuda 


export DYLD_LIBRARY_PATH="$DYLD_LIBRARY_PATH:$CUDA HOME/1ib" 


export PATH="$CUDA HOME/bin:$PATH" 


https://developer.nvidia.com/cudnn 网 站 提供 了 cuDNN 的 安装 包 。 在 下 载 
之 前 这 个 网 站 需要 先 注 册 ， 注 册 是 完全 免费 的 。 注 册 完 成 后 可 以 下 载 
cuDNN v4 Library for OS X， 其 中 v4 可 以 蔡 换 成 更 新 的 版 本 。 下 载 完 成 
Toolkit 的 目录 下 。 以 下 代码 完成 了 这 个 
过 程 : 





$ sudo mv include/cudnn.h /Developer/NVIDIA/CUDA-7.5/include/ 
$ sudo mv lib/libcudnn* /Developer/NVIDIA/CUDA-7.5/1ib 


$ sudo 1n -S /Developer/NVIDIA/CUDA- 
7.5/1ib/libcudnn* /usr/local/cuda/l1ib/ 


配置 TensorFlow 编 译 环境 


在 所 有 依赖 的 工具 包 都 安装 完成 之 后 就 可 以 开始 从 源码 来 安装 
TensorFlow 了。 无 论 在 哪个 操作 系统 下 ， 要 从 源 代 码 开 始 安 装 ， 首 先 需 
要 下 载 源 代码 。 通 过 以 下 命令 可 以 下 载 最 新 的 TensorFlow 源 代码 : 





$ git clone https://github.com/tensorflow/tensorflow 


使 用 以 上 命令 将 下 载 TensorFlow 最 新 的 代码 。 如 果 需 要 下 载 之 前 发 布 的 
版 本 ， 可 以 在 上 述 命 令 中 加 入 -b <branchname> 参 数 。 其 中 <branchname> 
可 以 是 r0.7、r0.8、r0.9 等 。 如 果 安 装 r0.8 或 者 更 老 的 版 本 ， 还 需要 在 上 

述 命令 中 加 入 --recurse-submodules 参 数 来 拉 取 TensorFlow 依 赖 的 其 他 工 

具 。 源 码 下 载 完 成 之 后 ， 需 要 运行 configure 脚 本 来 配置 环境 信息 : 








$ cd tensorflow 


$ ./configure 


# 配置 Python 的 路 径 。 

Please specify the location of python. [Default is /usr/bin/p 
# 配置 是 否 文 持 谷 歌 云 平台 。 

Do you wish to build TensorFlow with Google Cloud Platform su 
No Google Cloud Platform Support will be enabled for TensorFl 
# 配置 是 否 文 持 GPU。 

Do you wish to build TensorFlow with GPU support? [yZN] y 

GPU Support will be enabled for TensorFlow 

# 配置 GPU。 

Please specify which gcc nvcc should use as the host compiler 
# 配置 Cuda SDK 版 本 。 

Please specify the Cuda SDK version you want to use, e.g. 7.0 
# 配置 CUDA toolkit 目 录 。 

Please specify the location where CUDA 7.5 toolkit is install 
# 配置 Cudnn 版 本 。 

Please specify the Cudnn version you want to use. [Leave empt 
# 配置 CuDNN 目 录 。 

Please specify the Location where cuDNN 4 library is installe 
# 配置 GPU 计 算 能 


Please specify a 上 RS of comma- 
separated Cuda compute capabilities you want to build with. 


You can find the compute capability of your device at: https: 
gpus ， 


Please note that each additional compute capability significa 


Setting up Cuda include 
Setting up Cuda 1ib 
Setting up Cuda bin 
Setting up Cuda nvvm 
Setting up CUPTI include 
Setting up CUPTI 1l1ib64 


Configuration finished 





当 环 境 配 置 完成 之 后 通过 Bazel 来 编译 pip 的 安装 包 ， 然 后 通过 pip 安 装 : 


$ bazel build -c opt --config=cuda \ 
//tensorflow/tools/pip_package:build pip_package 

$ bazel-bin/tensorflow/tools/pip_package/build_ pip_package \ 
/tmp/tensorflow pkg 


$ sudo pip install /tmp/tensorflow pkg/tensorflow-0.9.0-py2- 
none-any .whl 





第 一 个 命令 中 --config=cuda 参 数 为 对 GPU 的 文 持 。 如 果 不 需 要 文 持 
GPU， 惑 不 需要 这 个 参数 了 。 最 后 一 行 中 wheel 安 装 包 的 名 字 
(tensorflow-0.9.0-py2-none-any.whl) 和 系统 环境 有 关 ， 使 用 pip 安 装 之 
前 可 以 先 通 过 ls 命令 来 确认 安装 包 的 名 字 。 


2.3 ”TensorFlow 测 试 样 例 


通过 2.2 节 中 介绍 的 方法 安装 好 TensorFlow 后 ， 在 这 一 节 中 将 给 出 一 个 简 
单 的 TensorFlow 样 例 程序 来 实现 两 个 癌 量 求 和 。TensorFlow 支 持 C、 

C++ 和 Python 三 种 语言 ， 但 是 它 对 Python 的 支持 是 最 全 面 的 ， 所 以 本 书 

中 所 有 的 样 例 都 会 使 用 Python 语言 。 通 过 本 节 给 出 来 的 简单 样 例 ， 读 者 














可 以 测试 安装 好 的 TensorFlow 环 境 ， 同 时 也 可 以 对 TensorFlow 有 一 个 直 
观 的 认识 。 这 一 节 将 直接 使 用 Python 自 带 的 交互 界面 来 演示 这 个 简单 样 
例 : 





# Python 
Python 2.7.6 (default, Jun 22 2815, 17:58:13) 


[GCC 4.8.2] on linux2 
Type "help", "copyright", "credits"” or "license”" for more information. 
>>> 





在 进入 Python 交 互 界 面 之 后 ， 先 通过 import 操 作 加 载 TensorFlow: 
上 图 显示 TensorFlow 已 经 成 功 加 载 『。Python 可 以 通过 重 命 名 来 使 引用 


更 加 方便 ， 在 本 书 中 都 会 将 “tensorflow” 简 写 为 “tf”。 然 后 定义 两 个 问 
量 ， a 和 hb: 





tf.constant([1.96,2.96]，name="a" 


tf.constant([2.96,3.96]，name="b"” 





在 这 里 将 a 和 和 b 定 义 为 了 两 个 常量 (tf.constant)， 一 个 为 [1.0,2.0]， 男 一 个 
为 [2.0,3.0]。 在 两 个 加 数 定义 好 之 后 ， 将 这 两 个 癌 量 加 起 来 : 


>>> result =a+b 


熟悉 NumPy 号 的 读者 会 发 现 ， 在 TensorFlow 之 中 ， 向 量 的 加 法 也 是 可 以 
直接 通过 加 号 (+) 来 完成 的 。 最 后 输出 相 加 得 到 的 结果 : 





>>> sess = .Session 
>>> sess.run(result) 





array([ 3.， 5.]，dtype=float32) 


要 输出 相 加 得 到 的 结果 ， 不 能 简单 地 直接 输出 result， 而 需要 先生 成 一 
个 会 话 (session) ， 并 通过 一 个 这 个 会 话 (session) 来 计算 结果 。 到 

此 ， 就 实现 了 一 个 非常 简单 的 TensorFlow 模 型 。 第 3 章 将 更 加 深入 地 介 
绍 TensorFlow 的 基本 概念 ， 并 将 TensorFlow 的 计算 模型 和 神经 网 络 模型 
结合 起 来 。 


小 结 


在 本 章 中 首先 介绍 了 TensorFlow 主 要 依赖 的 两 个 工具 








Protocol Buffer 


和 Bazel。Protocol _ Buffer 是 一 个 结构 数据 序列 化 的 工具 ， 在 TensorFlow 
中 大 部 分 数据 结构 都 是 通过 Protocol 了 Buffer 的 形式 存储 的 。Bazel 是 一 个 
谷歌 开源 的 编译 工具 ， 在 2.2 节 中 讲解 了 如 何 通过 Bazel 编 译 TensorFlow 
的 源 代 码 。 谷 歌 官 方 给 出 的 大 部 分 样 例 程序 也 是 通过 Bazel 编 译 的 。 


在 介绍 完 TensorFlow 所 依赖 的 工具 之 后 ，2.2 节 讲解 了 TensorFlow 的 不 同 
安装 方式 ， 以 及 不 同安 闭 方 式 适 用 的 不 同 场景 。2.2.1 小 节 中 介绍 的 
Docker 是 可 移植 性 最 强 的 一 种 安装 方式 ， 它 文 持 大 部 分 的 操作 系统 〈 比 
如 Windows，Linux 和 Mac OS) 。 但 Docker 目 前 对 GPU 的 支持 有 限 ， 而 
有 晶 Docker 对 本 地 开发 环境 的 支持 也 不 够 友好 。 在 本 地 最 方便 的 安装 方式 
是 使 用 pip。 使 用 pip 可 以 将 已 经 打包 好 的 安装 包 安 装 到 本 地 。 谷 歌 官方 
提供 了 不 同 版 本 TensorFlow 的 pip 安 装 包 。 这 种 方式 比较 适合 在 本 地 开发 
TensorFlow 的 应 用 程序 ， 但 无 法 修改 TensorFlow 本 喘 。 最 后 一 种 方法 就 
是 从 源码 安装 ， 这 种 方式 最 灵活 ， 但 比较 烦琐 。 一 般 只 有 需要 修改 
TensorFlow 本 身 或 者 需要 文 持 比较 特殊 的 GPU 时 才 会 被 用 到 。 


在 本 章 的 最 后 一 节 中 给 出 了 一 个 非常 简短 的 TensorFlow 测 试 样 例 。 这 个 
样 例 程序 完成 了 两 个 回 量 加 法 的 功能 。 通 过 这 个 样 例 可 以 测试 安装 好 的 
TensorFlow 环 境 ， 同 时 也 可 以 对 TensorFlow 有 一 个 直观 的 感受 。 在 第 3 章 
中 将 更 加 详细 地 介绍 TensorFlow 中 的 基本 概念 ， 并 讲解 如 何 通过 
TensorFlow 来 实现 一 个 简单 神经 网 络 的 训练 过 程 。 









































(1) https://developers.google.com/protocol-buffers/docs/overview 中 给 出 了 更 多 关于 Protocol Buffer 








(2) https://developers.google.com/protocol-buffers/docs/encoding 中 给 出 了 Protocol Buffer 的 具体 编 
但 方式 oo 

















(3) 在 最 新 的 Protocol Buffer3 中 已 经 不 再 文 持 required 类 型 。 





(4) http://www.bazel.io 中 给 出 了 关于 Bazel 的 更 多 介绍 。 











(5) http:/www.bazel.io/docs/be/workspace.html 中 给 出 了 项 目 空间 的 完整 文档 和 开发 手册 。 





(6) http:/www.bazel.io/docs/be/overview.html 中 给 出 了 BUILD 文 件 的 完整 文档 和 开发 手册 。 


(7) http:/www.bazel.io/docs/test-encyclopedia.html 中 给 出 了 更 多 关于 测试 目标 的 介绍 。 


(8) http:/www.bazel.io/docs/output_directories.html 中 详细 介绍 了 编译 结果 的 目录 结构 。 


























(9) https://www.docker.com/what-docker 中 详细 介绍 了 Docker 的 基本 概念 。 

















(10) https://docs.docker.com/engine/installation 中 介绍 了 在 不 同 操作 系统 下 如 何 安装 Docker。 

















(GD 因为 0.9.0 对 循环 神经 网 络 支 持 不 是 特别 友好 ， 所 以 第 8 对 部 分 代码 使 用 了 版 本 0.10.0。 在 本 
书 中 ， 使 用 了 其 他 版 本 的 样 例 代 码 都 给 出 了 明确 的 注释 。 









































(12) 才 云 科技 只 提供 0.12.0 及 以 上 版 本 的 TensorFlow 镜 像 。 

















(13) 第 9 章 将 更 加 详细 地 介绍 如 何 使 用 TensorFlow 可 视 化 工具 TensorBoard。 




















(14) https://docs.docker.com/engine/reference/commandline/cli 中 给 出 了 Docker 命 令 的 文档 。 


(15) http://jupyter.org/ 中 给 出 了 对 Jupyter 更 加 详细 的 介绍 。 




















(16) https://github.com/NVIDIA/nvidia-docker 中 介绍 了 nvidia-docker 的 基本 原理 和 安装 说 明 。 

















(17) https://pip.pypa.io 中 给 出 pip 的 文档 。 


(18) 其 他 版 本 的 Linux 可 以 参考 Ubuntu 14.04 下 的 安装 方法 。 目前 TensorFlow 没 有 比较 好 的 支持 
在 Windows 下 从 源码 安装 ，Windows 用 户 可 以 通过 2.2.1 节 中 介绍 的 Docker 来 使 用 TensorFlow。 




















(19) 具体 下 载 地 址 参考 官方 网 站 https://bazel.build/versions/master/docs/install.html。 











(20) https://developer.nvidia.com/cuda-gpus 中 列 出 了 所 有 GPU 的 计算 能 


(21) http://brew.sh 中 介绍 Homebrew 的 功能 。 























(22) NumPy 是 一 个 科学 计算 的 Python 工 具 包 ，http://www.numpy.org 中 给 出 了 更 多 关于 NumPy 的 
介绍 oo 


第 3 章 TensorFlow 入 |] 


在 第 2 章 中 介绍 了 如 何 安装 TensorFlow， 并 且 在 安装 好 的 TensorFlow 中 运 
行 了 一 个 简单 的 向 量 相 加 的 样 例 。 本 章 将 详细 地 介绍 TensorFlow 基 本 概 
念 。 在 本 章 的 前 3 节 中 ， 将 分 别 介 绍 TensorFlow 的 计算 模型 、 数 据 模型 
和 运行 模型 。 通 过 这 三 个 角度 对 TensorFlow 的 介绍 ， 读 者 可 以 对 





TensorFlow 的 工作 原理 有 一 个 大 致 的 了 解 。 在 本 章 的 最 后 一 节 中 ， 将 简 
单 介 绍 神经 网 络 的 主要 计算 流程 ， 并 介绍 如 何 通过 TensorFlow 实 现 这 些 
计算 。 


3.1 TensorFlow 计 算 模 型 一 -计算 多 


计算 图 是 TensorFlow 中 最 基本 的 一 个 概念 ，TensorFlow 中 的 所 有 计算 都 
会 被 转化 为 计算 图 上 的 节点 。3.1.1 小 节 将 详细 介绍 TensorFlow 中 计算 图 
的 基本 概念 ， 然 后 在 3.1.2 小 节 中 将 通过 一 些 简 单 的 样 例 程序 说 明 
TensorFlow 计 算 图 的 使 用 方法 。 


3.1.1 计算 图 的 概念 


TensorFlow 的 名 字 中 已 经 说 明了 它 最 重要 的 两 个 概念 Tensor 和 
Flow。Tensor 就 是 张 量 。 张 量 这 个 概念 在 数学 或 者 物理 学 中 可 以 有 不 同 
的 解释 ， 但 在 本 书 中 并 不 强调 它 本 里 的 含义 。 在 TensorFlow 中 ， 张 量 可 
以 被 简单 地 理解 为 多 维 数组 ， 在 3.2 节 中 将 对 张 量 做 更 加 详细 的 介绍 。 
如 果 说 TensorFlow 的 第 一 个 词 Tensor 表 明了 它 的 数据 结构 ， 那 么 Flow 则 
体现 了 它 的 计算 模型 。Flow 翻 译 成 中 文 就 是 “ 流 ”"， 它 直观 地 表达 了 张 量 
之 间 通 过 计算 相互 转化 的 过 程 。TensorFlow 是 一 个 通过 计算 图 的 形式 来 
表述 计算 的 编程 系统 。TensorFlow 中 的 每 一 个 计算 都 是 计算 图 上 的 一 个 
节点 ， 而 节点 之 间 的 边 摘 述 了 计算 之 间 的 依赖 和 关系。 图 3-1 展 示 了 通过 
TensorBoardu 画 出 来 的 第 2 章 中 两 个 癌 量 相 加 样 例 的 计算 图 。 


。 add 
-<> 


图 3-1 通过 TensorBoard 可 视 化 向 量 相 加 的 计算 


图 3-1 中 的 每 一 个 节点 都 是 一 个 运算 ， 而 每 一 条 边 代 表 了 计算 之 间 的 依 
赖 关 系 。 如 采 一 个 运算 的 输入 依赖 于 号 一 个 运算 的 输出 ， 那 么 这 两 个 运 














算 有 依赖 关系 。 在 图 3-1 中 ，a 和 b 这 两 个 常量 不 依赖 任何 其 他 计算 所。 而 
add 计 算 则 依赖 读 取 两 个 常量 的 取 值 。 于 是 在 图 3-1 中 可 以 看 到 有 一 条 从 
a 到 add 的 边 和 一 条 从 b 到 add 的 边 。 在 图 3-1 中 ， 没 有 任何 计算 依赖 add 的 
结果 ， 于 是 代表 加 法 的 节点 add 没 有 任何 指 癌 其 他 节点 的 边 。 所 有 
TensorFlow 的 程序 都 可 以 通过 类 似 图 3-1 所 示 的 计算 图 的 形式 来 表示 ， 这 
就 是 TensorFlow 的 基本 计算 模型 。 


3.1.2 计算 图 的 使 用 


一 个 阶段 需要 定义 计算 图 中 所 有 的 计算 。 比 如 在 第 2 章 的 问 量 加 法 样 例 
程序 中 首先 定义 了 两 个 输入 ， 然 后 定义 了 一 个 计算 来 得 到 它们 的 和 。 第 
二 个 阶段 为 执行 计算 ， 这 个 阶段 将 在 3.3 市 中 介绍 。 以 下 代码 给 出 了 计 

算 定 义 阶段 的 样 例 。 





import tensorflow as tf 
a = tf.constant([1.0, 2.0], name="a") 
b = tf.constant([2.0, 3.0], name="b") 


resvule = a 


在 Python 中 一 般 会 采用 “import ”tensorflow ”as ” tf” 的 形式 来 载 入 
TensorFlow， 这 样 可 以 使 用 “tf 来 代替 “tensorflow” 作 为 模块 名 称 ， 使 得 
整个 程序 更 加 简洁 。 这 是 TensorFlow 中 非常 常用 的 技巧 ， 在 本 书后 面 的 
章节 中 将 会 全 部 采用 这 种 加 载 方 式 。 在 这 个 过 程 中 ，TensorFlow 会 自动 
将 定义 的 计算 转化 为 计算 图 上 的 节点 。 在 TensorFlow 程 序 中 ， 系 统 会 目 
动 维 护 一 个 默认 的 计算 图 ， 通 过 tf.get_default_graph 函 数 可 以 获取 当前 默 
认 的 计算 图 。 以 下 代码 示意 了 如 何 获 取 默 认 计 算 图 以 及 如 何 查 看 一 个 运 
算 所 属 的 计算 图 。 











# 通过 a,graph 可 以 查看 张 量 所 属 的 计算 图 。 因 为 没有 特意 指定 ， 所 以 这 个 计算 图 


谱 该 等 于 


# 当前 默认 的 计算 图 。 所 以 下 面 这 个 操作 输出 值 为 True。 


print(a.graph is tf,get_default_ graph()) 


除了 使 用 默认 的 计算 图 ，TensorFlow 文 持 通 过 tf.Graph 函 数 来 生成 新 的 计 
算 图 。 不 同 计算 图 上 的 张 量 和 运算 都 不 会 共享 。 以 下 代码 示意 了 如 何在 
不 同 计算 网 上 定义 和 使 用 变量 旦 。 





import tensorflow as tf 


g1 = tf.Graph() 


with gi.as_default(): 
# 在 计算 图 91 中 定义 变量 “v”"， 并 设置 初始 值 为 0。 
Vv = tf.get variable( 


"v", initializer=tf.zeros initializer(shape=[1])) 


g2 = tf.Graph() 

with g2.as_default(): 
# 在 计算 图 92 中 定义 变量 “v”， 并 设置 初始 值 为 1。 
v = tf.get variable( 


"v", initializer=tf.ones initializer(shape=[1])) 


# 在 计算 图 91 中 读 取 变量 “v” 的 取 值 。 
with tf.Session(graph=g1) as sess: 
tf.initialize all variables().run() 


with tf.variable scope("", reuse=True): 


# 在 计算 图 g1 中 ， 变 量 “v” 的 取 值 应 该 为 0， 所 以 下 面 这 行 会 输出 


print(sess.run(tf.get_ variable("v"))) 


# 在 计算 图 g2 中 读 取 变量 “v” 的 取 值 。 
with tf.Session(graph=g2) as sess: 
tf.initialize all variables().run() 
with tf.variable_ scope("", reuse=True): 
ee # 在 计算 图 g2 中 ， 变 量 “v 7 的 取 值 应 该 为 1， 所 以 下 面 这 行 会 输出 


print(sess.run(tf.get_ variable("v"))) 


上 面 的 代码 产生 了 两 个 计算 图 ， 每 个 计算 图 中 定义 了 一 个 名 字 为 “Vv” 的 
变量 。 在 计算 图 g1 中 ， 将 v 初 始 化 为 0; 在 计算 图 g2 中 ， 将 v 初 始 化 为 1。 
可 以 看 到 当 运 行 不 同 计算 图 时 ， 变 量 v 的 值 也 是 不 一 样 的 。TensorFlow 
中 的 计算 图 不 仅仅 可 以 用 来 隔离 张 量 和 计算 ， 它 还 提供 了 管理 张 量 和 计 
算 的 机 制 。 计 算 图 可 以 通过 tft.Graph.device 函 数 来 指定 运行 计算 的 设 
备 。 这 为 TensorFlow 使 用 GPU 提供 了 机 制 。 下 面 的 程序 可 以 将 加 法 计算 
跑 在 GPU 上 。 








g = tf.Graph() 
# 指定 计算 运行 的 设备 。 
with g.device('/gpu:0'): 


nesulee sash 


具体 使 用 GPU 的 方法 将 在 第 10 章 详 述 。 有 效 地 整理 TensorFlow 程 序 中 的 

资源 也 是 计算 图 的 一 个 重要 功能 。 在 一 个 计算 图 中 ， 可 以 通过 集合 
Ccollection) 来 管理 不 同类 别 的 资源 。 比 如 通过 tf.add_to_collection 函数 

可 以 将 资源 加 入 一 个 或 多 个 集合 中 ， 然 后 通过 tf.get_collection 获 取 一 个 








集合 里 面 的 所 有 资源 。 这 里 的 资源 可 以 是 张 量 、 变 量 或 者 运行 
TensorFlow 程 序 所 需要 的 队列 资源 ， 等 等 。 为 了 方便 使 用 ，TensorFlow 
人 表 3-1 总 结 了 最 常用 的 几 个 自动 维护 























表 3-1 TensorFlow 中 维护 的 集合 列表 











集合 名 称 集合 内 容 使 用 
tf.GraphKeys.VARIABLES 所 有 变量 
Tenso 
模型 
tf.GraphKeys.TRAINABLE_ VARIABLES 可 学 习 的 变 


tf.GraphKeys.SUMMARIES 


tf.GraphKeys.QUEUE_RUNNERS 


tf.GraphKeys.MOVING AVERAGE VARIABLES 


量 (一 般 指 神 练 、4 
经 网 络 中 的 参 型 可 
数 ) 容 
日 志 生 成 相 Tens 
天 的 张 量 计算 - 
化 
处 理 输入 的 输入 
QueueRunner 


所 有 计算 了 计 


滑动 平均 值 的 的 请 
变量 值 


YI -十 
3.2 ”TensorFlow 数 据 模型 一 一 张 量 
3.1 节 介绍 了 使 用 计算 图 的 模型 来 描述 TensorFlow 中 的 计算 。 这 一 节 将 介 
绍 TensorFlow 中 另外 一 个 基础 概念 张 量 。 张 量 是 TensorFlow 管 理 数 


据 的 形式 ， 在 3.2.1 小 节 中 将 介绍 张 量 的 一 些 基 本 属性 。 然 后 在 3.2.2 小 节 
中 将 介绍 如 何 通 过 张 量 来 保存 和 获取 TensorFlow 计 算 的 结果 。 


3.2.1 张 量 的 概念 








从 TensorFlow 的 名 字 束 可 以 看 出 张 量 (tensor) 是 一 个 很 重要 的 概念 。 
在 TensorFlow 程 序 中 ， 所 有 的 数据 都 通过 张 量 的 形式 来 表示 。 从 功能 的 
角度 上 看 ， 张 量 可 以 被 简单 理解 为 多 维 数组 。 其 中 零 阶 张 量 表示 标量 

(scalar) ， 也 就 是 一 个 数 8-， 第 一 阶 张 量 为 同 量 (vector) ， 也 就 是 一 
个 一 维 数组 ;第 m 阶 张 量 可 以 理解 为 一 个 n 维 数 组 。 但 张 量 在 
TensorFlow 中 的 实现 并 不 是 直接 采用 数组 的 形式 ， 它 只 是 对 TensorFlow 
中 运算 结果 的 引用 。 在 张 量 中 并 没有 真正 保存 数字 ， 它 保存 的 是 如 何 得 
到 这 些 数 字 的 计算 过 程 。 还 是 以 同 量 加 法 为 例 ， 当 运行 如 下 代码 时 ， 并 
不 会 得 到 加 法 的 结果 ， 而 会 得 到 对 结果 的 一 个 引用 。 














import tensorflow as tf 
# tf.constant 是 一 个 计算 ， 这 个 计算 的 结果 为 一 个 张 量 ， 保 存在 变量 a 中 。 


a = tf.constant([1.0, 2.0], name="a") 








b = tf.constant([2.0, 3.0], name="b") 
result = tf.add(a, b, name="add") 


print result 


俞 出 : 


Tensor("add:0", shape=(2,), dtype=float32) 


从 上 面 的 代码 可 以 看 出 TensorFlow 中 的 张 量 和 NumPy 中 的 数组 不 同 ， 
TensorFlow 计 算 的 结果 不 是 一 个 具体 的 数字 ， 而 且 一 个 张 量 的 结构 。 从 
上 面 代 码 的 运行 结果 可 以 看 出 ， 一 个 张 量 中 主要 保存 了 三 个 属性 : 名 字 
(name) 、 维 度 (shape) 和 类 型 (type) 。 


张 量 的 第 一 个 属性 名 字 不 仪 是 一 个 张 量 的 唯一 标识 符 ， 它 同样 也 给 出 了 
这 个 张 量 是 如 何 计 算出 来 的 。 在 3.1.2 小 节 中 介绍 了 TensorFlow 的 计算 都 
可 以 通过 计算 图 的 模型 来 建立 ， 而 计算 图 上 的 每 一 个 节点 代表 了 一 个 计 
算 ， 计 算 的 结果 就 保存 在 张 量 之 中 。 所 以 张 量 和 计算 图 上 节点 所 代表 的 














计算 结果 是 对 应 的 。 这 样张 量 的 命名 就 可 以 通过 “node:src_output” 的 形 
式 来 给 出 。 其 中 node 为 节点 的 名 称 ，src_output 表 示 当 前 张 量 来 自 节点 的 
第 几 个 输出 。 比 如 上 面 代 码 打出 来 的 “add:0” 束 说 明了 result 这 个 张 量 是 
计算 节点 “add” 输 出 的 第 一 个 结果 (编号 从 0 开始 )。 


张 量 的 第 二 个 属性 是 张 量 的 维度 〈shape) 。 这 个 属性 描述 了 一 个 张 量 
的 维度 信息 。 比 如 上 面 样 例 中 shape=(2,) 说 明了 张 量 result 是 一 个 一 维 数 
组 ， 这 个 数组 的 长 度 为 2。 维 度 是 张 量 一 个 很 重要 的 属性 ， 围 绕 张 量 的 
维度 TensorFlow 也 给 出 了 很 多 有 用 的 运算 ， 在 这 里 先 不 一 一 列举 ， 在 后 
面 的 章节 中 将 使 用 到 部 分 运算 。 


张 量 的 第 三 个 属性 是 类 型 〈type) ， 每 一 个 张 量 会 有 一 个 唯一 的 类 型 。 
TensorFlow 会 对 参与 运算 的 所 有 张 量 进 行 类 型 的 检查 ， 当 发 现 类 型 不 匹 
配 时 会 报错 。 比 如 运行 下 面 这 段 程序 时 就 会 得 到 类 型 不 匹配 的 错误 : 



































Import tensorflow as tf 
a=tf.constant([1，2]，name="a") 
b = tf.constant([2.0, 3.0], name="b") 


es "ab 


这 段 程序 和 上 面 的 样 例 基本 一 模 一 样 ， 唯 一 不 同 的 是 把 其 中 一 个 加 数 的 
小 数 点 去 掉 了 。 这 会 使 得 加 数 a 的 类 型 为 整数 而 加 数 b 的 类 型 为 实数 ， 这 
样 程 序 会 报关 型 不 匹配 的 错误 : 


ValueError: Tensor conversion requested dtype int32 for Tenso 
(2, ), dtype=float32)'" 


如 果 将 第 一 个 加 数 指定 成 实数 类 型 “a = tf.constant([1，2]， name="a", 
dtype=tf.float32)”， 那 么 两 个 加 数 的 类 型 相同 就 不 会 报错 了 。 如 果 不 指 
定 类 型 ，TensorFlow 会 给 出 默认 的 类 型 ， 比 如 不 带 小 数 点 的 数 会 被 默认 
为 int32， 带 小 数 点 的 会 默认 为 float32。 因 为 使 用 默认 类 型 有 可 能 会 导致 
潜在 的 类 型 不 匹配 问题 ， 所 以 一 般 建 议 通过 指定 dtype 来 明确 指出 变量 





或 者 各 量 的 类 型 。TensorFlow 文 持 14 种 不 同 的 类 型 ， 主 要 包括 了 实数 
(tf.float32、 tf.float64)、 整 数 (tf.int8、 tf.int16、tf.int32、tf.int64、 
tf.uint8)、 布 尔 型 (tf.bool) 和 复数 (tf.complex64、tf.complex128)。 


3.2.2 ” 张 量 的 使 用 


和 TensorFlow 的 计算 模型 相 比 ，TensorFlow 的 数据 模型 相对 比较 简单 。 
张 量 使 用 主要 可 以 总 结 为 两 大 类 。 


第 一 类 用 途 是 对 中 间 计 算 结果 的 引用 。 当 一 个 计算 包含 很 多 中 间 结 宁 
时 ， 使 用 张 量 可 以 大 大 提高 代码 的 可 读 性 。 以 下 为 使 用 张 量 和 不 使 用 张 
量 记录 中 间 结 果 来 完成 辐 量 相 加 的 功能 的 代码 对 比 。 








# 使 用 张 量 记录 中 间 结 果 

a = tf.constant([1.0, 2.0], name="a") 

b = tf.constant([2.0, 3.0], name="b") 

result = a + b 

# 直接 计算 向 量 的 和 , 这 样 可 读 性 会 比较 差 。 

result = tf.constant([1.0, 2.0], name="a") + 


tf.constant([2.0, 3.0], name="b") 





从 上 面 的 样 例 程序 可 以 看 到 a 和 b 其 实 就 是 对 常量 生成 这 个 运算 结果 的 引 
用 ， 这 样 在 做 加 法 时 束 可 以 直接 使 用 这 两 个 变量 ， 而 不 需要 再 去 生成 这 
些 常 量 。 当 计算 的 复杂 度 增 加 时 《比如 在 构建 深层 神经 网 络 时 ) 通过 张 
量 来 引用 计算 的 中 间 结 果 可 以 使 代码 的 可 阅读 性 大 大 提升 。 同 时 通过 张 
量 来 存储 中 间 结 果 ， 这 样 可 以 方便 获取 中 间 结 果 。 比 如 在 卷 积 神经 网 络 
中 名， 卷 积 层 或 者 池 化 层 有 可 能 改变 张 量 的 维度 ， 通 过 result.get_shape 朱 
数 来 获取 结果 张 量 的 维度 信息 可 以 人 免 去 人 工 计 算 的 抹 烦 。 























使 用 张 量 的 第 二 类 情况 是 当 计 算 图 构造 完成 之 后 ， 张 量 可 以 用 来 获得 计 
算 结果 ， 也 就 是 得 到 真实 的 数字 。 虽 然 张 量 本 身 没 有 存储 具体 的 数字 ， 








但 是 通过 下 面 3.3 小 节 中 介绍 的 会 话 〈session ) ， 束 可 以 得 到 这 些 具 体 的 
数字 。 比 如 在 上 i 述 代码 中 ， 可 以 使 用 tf.Session().run (result) 语句 来 得 
到 计算 结果 。 


3.3 ”TensorFlow 运 行 模 型 一 一 会 话 


前 面 的 两 节 介 绍 了 TensorFlow 是 如 何 组 织 数据 和 运算 的 。 本 节 将 介绍 如 
何 使 用 TensorFlow 中 的 会 话 《session) 来 执行 定义 好 的 运算 ， 会 话 拥有 
并 管理 TensorFlow 程 序 运行 时 的 所 有 资源 。 当 所 有 计算 完成 之 后 需要 关 
闭会 话 来 帮助 系统 回收 资源 ， 否 则 就 可 外 和 见 资 源 汇 漏 的 问题 。 
TensorFlow 中 使 用 会 话 的 模式 一 般 有 两 种 ， 第 一 种 模式 需要 明确 调用 会 
话 生 成 函数 和 关闭 会 话 函 数 ， 这 种 模式 的 代码 流程 如 下 








# 创建 一 个 会 话 。 
sess = tf.Session() 


# ”使 用 这 个 创建 好 的 会 话 来 得 到 关心 的 运算 的 结果 。 比 如 可 以 调用 


sess.run(result), 


# 来 得 到 3 .1 节 样 例 中 张 量 resulLt 的 取 值 。 





SesSsaaun(e ee 
# 关闭 会 话 使 得 本 次 运行 中 使 用 到 的 资源 可 以 被 释放 。 


sess.close() 


使 用 这 种 模式 时 ， 在 所 有 计算 完成 之 后 ， 需 要 明确 调用 Session.close 也 
数 来 关闭 会 话 并 释放 资源 。 然 而 ， 当 程 入 因为 异常 而 退出 轩 关闭 会 话 
的 阔 数 可 能 就 不 会 被 执行 从 而 导致 资源 泄漏 。 为 了 解决 异常 退出 时 资源 
释放 的 问题 ，TensorFlow 可 以 通过 Python 的 上 下 文 管理 器 来 使 用 会 话 。 
以 下 代码 展示 了 如 何 使 用 这 种 模式 。 














# 创建 一 个 会 话 ， 并 通过 Python 中 的 上 下 文 管理 器 来 管理 这 个 会 话 。 


with tf.Session() as sess: 


# 使 用 这 创建 好 的 会 话 来 计算 关心 的 结 
SSSeaUn( 
# 不 需要 再 调用 “Session.close()7 函 数 来 关闭 会 话 ， 
# 当 上 下 文 退出 时 会 话 关 闭 和 资源 释放 也 自动 完成 了 。 


通过 Python 上 下 文 管理 器 的 机 制 ， 只 要 将 所 有 的 计算 放 在 “with” 的 内 部 
就 可 以 。 当 上 下 文 管理 器 退出 时 候 会 自动 释放 所 有 资源 。 这 样 既 解 决 了 
因为 异常 退出 时 资源 释放 的 问题 ， 同 时 也 解决 了 忘记 调用 Session.close 
函数 而 产生 的 资源 泄露 。 


3.1 节 介绍 过 TensorFlow 会 自动 生成 一 个 默认 的 计算 图 ， 如 果 没 有 特殊 指 
定 ， 运 算 会 自动 加 入 这 个 计算 图 中 。TensorFlow 中 的 会 话 也 有 类 似 的 机 
制 ， 但 TensorFlow 不 会 目 动 生成 默认 的 会 话 ， 而 是 需要 手动 指定 。 当 默 
认 的 会 话 被 指定 之 后 可 以 通过 tf.Tensor.eval 函 数 来 计算 一 个 张 量 的 取 
值 。 以 下 代码 展示 了 通过 设 定 默 认 会 话 计算 张 量 的 取 值 。 














sess = tf.Session() 
with sess.as_default(): 


print(result.eval()) 


以 下 代码 也 可 以 完成 相同 的 功能 。 


sess = tf.Session() 


# 下 面 的 两 个 命令 有 相同 的 功能 。 


print(sess.run(result)) 


print(result.eval(session=sess)) 


在 交互 式 环境 下 (比如 Python 脚 本 或 者 Jupyter 的 编辑 器 下 ) ， 通 过 设置 
默认 会 话 的 方式 来 获取 张 量 的 取 值 更 加 方便 。 所 以 TensorFlow 提 供 了 一 
种 在 交互 式 环境 下 直接 构建 默认 会 话 的 函数 。 这 个 函数 就 是 
tft.InteractiveSession。 使 用 这 个 函数 会 自动 将 生成 的 会 话 注册 为 默认 会 
话 。 以 下 代码 展示 了 tt.IPmteractiveSession 函 数 的 用 法 。 








sess = tf，InteractiveSession () 
print(result.eval()) 


sess.close() 


通过 tf.InteractiveSession 函 数 可 以 省 去 将 产生 的 会 话 注册 为 默认 会 话 的 过 
程 。 无 论 使 用 哪 种 方法 都 可 以 通过 ConfigProto Protocol Buffere 来 配置 需 
要 生成 的 会 话 。 下 面 给 出 了 通过 ConfigProto 配 置 会 话 的 方法 : 





config = tf.ConfigProto(allow soft_ placement=True, 
log_device placement=True) 
sess1 = tf. InteractiveSession(config=config) 


sess2 = tf, Session(config=config) 


通过 ConfigProto 可 以 配置 类 似 并 行 的 线程 数 、GPU 分 配 策略 、 运 算 超 时 
时 间 等 参数 。 在 这 些 参数 中 ， 最 常 使 用 的 有 两 个 。 第 一 个 是 
allow_soft_placement， 这 是 一 个 布尔 型 的 参数 ， 当 它 为 True 的 时 候 ， 在 
以 下 任意 一 个 条 件 成 立 的 时 候 ，GPU 上 的 运算 可 以 放 到 CPU 上 进行 : 


1. 运算 无 法 在 GPU 上 执行 


2. 没有 GPU 资 源 〈( 比 如 运算 被 指定 在 第 二 个 GPU 上 运行 ， 但 是 机 器 只 
有 一 个 GPU) 。 


运算 输入 包含 对 CPU 计算 结果 的 引用 。 





这 个 参数 的 默认 值 为 False， 但 是 为 了 使 得 代码 的 可 移植 性 更 强 ， 在 有 
GPU 的 环境 下 这 个 参数 一 般 会 被 设置 为 True。 不 同 的 GPU 驱动 版 本 可 能 
对 计算 的 支持 有 略微 的 区 别 ， 通 过 将 allow_soft_placement 参 数 设 为 
True， 当 某 些 运算 无 法 被 当前 GPU 文 持 时 ， 可 以 上 自动 调 整 到 CPU 上 ， 而 
不 是 报错 。 类 似 的 ， 通 过 将 这 个 参数 设置 为 True 可 以 让 程序 在 拥有 不 同 
数量 的 GPU 机 右上 顺利 运行 。 


第 二 个 使 用 得 比较 多 的 配置 参数 是 log_device_placement。 这 也 是 一 个 布 
尔 型 的 参数 ， 当 它 为 True 时 日 志 中 将 会 记录 每 个 节点 被 安排 在 了 哪个 设 
备 上 以 方便 调试 。 而 在 生产 环境 中 将 这 个 参数 设置 为 False 可 以 减少 日 志 


里 。 


3.4 ” TensorFlow 实 现 神 经 网 络 


上 面 3 节 从 不 同 角 度 介 绍 了 TensorFlow 的 基本 概念 。 在 这 一 节 中 ， 将 结 
合 神经 网 络 的 功能 进一步 介绍 如 何 通过 TensorFlow 来 实现 神经 网 络 。 首 
先 3.4.1 小 节 将 通过 TensorFlow 游 乐 场 来 简单 介绍 神经 网 络 的 主要 功能 以 
及 计算 流程 。 然 后 3.4.2 小 节 将 介绍 神经 网 络 的 前 向 传播 算法 (forward- 
propagation) ， 并 给 出 使 用 TensorFlow 的 代码 实现 。 接 着 3.4.3 小 节 将 介 
绍 如 何 通过 TensorFlow 中 的 变量 来 表达 神经 网 络 的 参数 。 在 3.4.4 小 节 中 
将 介绍 神经 网 络 反 向 传播 〈back-propagation ) 算法 的 原理 以 及 
TensorFlow 对 反问 传播 算法 的 支持 。 最 后 在 3.4.5 小 节 中 将 给 出 一 个 完整 
的 TensorFlow 程 序 在 随机 的 数据 上 训练 一 个 简单 的 神经 网 络 。 


3.4.1 TensorFlow 游 乐 场 及 神经 网 络 
简介 


这 一 小 节 将 通过 TensorFlow 游 乐 场 来 快速 介绍 神经 网 络 的 主要 功能 。 
TensorFlow 游 乐 场 〈http:Wplayground.tensorflow.org) 是 一 个 通过 网 页 浏 
览 占 就 可 以 训练 的 简单 神经 网 络 并 实现 了 可 视 化 训练 过 程 的 工具 。 图 3- 
2 给 出 了 TensorFlow 游 乐 场 默认 设置 的 截图 。 








Tinker With a Neural Network Right Here in Your Browser. 


Dont Worry You Cant Break It. We Promise. 
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图 3-2 ”TensorFlow 游 乐 场 界 面 截图 


从 图 3-2 中 可 以 看 出 ，TensorFlow 游 乐 场 的 左 侧 提供 了 4 个 不 同 的 数据 集 
来 测试 神经 网 络 。 默 认 的 数据 为 左上 和 角 被 框 出 来 的 那个 。 被 选中 的 数据 
也 会 显示 在 图 3-2 中 最 右边 的 “OUTPUT” 栏 下 。 在 这 个 数据 中 ， 可 以 看 到 
一 个 二 维 平面 上 有 黑色 或 者 灰色 的 点 ， 每 一 个 小 点 代表 了 一 个 样 例 ， 而 
点 的 颜色 代表 了 样 例 的 标签 。 因 为 点 的 颜色 只 有 两 种 ， 所 以 这 是 一 个 二 
分 类 的 问题 。 在 这 里 举 一 个 例子 来 说 明 这 个 数据 可 以 代表 的 实际 问题 。 

假设 需要 判断 某 工 三 生产 的 零件 是 否 合格 ， 那 么 灰色 的 点 可 以 表示 所 有 
合格 的 零件 而 黑色 的 表示 不 合格 的 零件 。 这 样 判断 一 个 零件 是 否 合格 就 
变 成 了 区 分 点 的 颜色 。 


为 了 将 一 个 实际 问题 对 应 到 平面 上 不 同 颜色 点 的 划分 ， 还 需要 将 实际 问 
题 中 的 实体 ， 比 如 上 述 例子 中 的 零件 ， 变 成 平面 上 的 一 个 点 叶 。 这 就 是 
特征 提取 解决 的 问题 。 还 是 以 零件 为 例 ， 可 以 用 零件 的 长 度 和 质量 来 大 
致 揪 述 一 个 零件 。 这 样 一 个 物理 意义 上 的 零件 就 可 以 被 转化 成 长 度 和 质 
量 这 两 个 数字 。 在 机 器 学 习 中 ， 所 有 用 于 描述 实体 的 数字 的 组 合 就 是 一 
个 实体 的 特征 向 量 (feature vector) 。 在 第 1 章 中 介绍 过 ， 特 征 向 量 的 提 
取 对 机 器 学 习 的 效果 至 关 重 要 ， 如 何 提取 特征 本 书 不 再 袭 述 。 通 过 特征 
提取 ， 就 可 以 将 实际 问题 中 的 实体 转化 为 空间 中 的 点 。 假 设 使 用 长 度 和 
质量 作为 一 个 零件 的 特征 同 量 ， 那 么 每 个 零件 就 是 二 维 平面 上 的 一 个 

点 。TensorFlow 游 乐 场 中 FEATURES 一 栏 对 应 了 特征 向 量 。 在 本 小 节 的 











样 例 中 ， 可 以 认为 x, 代表 一 个 零件 的 长 度 ， 而 x ,代表 零件 的 质量 。 


特征 向 量 是 神经 网 络 的 输入 ， 神 经 网 络 的 主体 结构 显示 在 了 图 3-2 的 中 
间 位 置 。 目 前 主流 的 神经 网 络 都 是 分 层 的 结构 ， 第 一 层 是 输入 层 ， 代 表 
特征 向 量 中 每 一 个 特征 的 取 值 。 比 如 如 果 一 个 零件 的 长 度 是 0.5， 那 么 x ， 
的 值 就 是 0.5。 同 一 层 的 节点 不 会 相互 连接 ， 而 且 每 一 层 只 和 下 一 层 连 
接 ， 直 到 最 后 一 层 作 为 输出 层 得 到 计算 的 结果 所。 在 二 分 类 问题 中 ， 比 
如 判断 零件 是 否 合格 ， 神 经 网 络 的 输出 层 往往 只 包含 一 个 节点 ， 而 这 个 
节点 会 输出 一 个 实数 值 。 通 过 这 个 输出 值 和 一 个 事先 设 定 的 阔 值 ， 就 可 
以 得 到 最 后 的 分 类 结果 。 以 判断 零件 合格 为 例 ， 可 以 认为 当 输出 的 数值 
大 于 0 时 ， 给 出 的 判断 结果 是 零件 合格 ， 反 之 则 零件 不 合格 。 一 般 可 以 
认为 当 输 出 值 离 阔 值 越 远 时 得 到 的 答案 越 可 靠 。 


在 输入 和 输出 层 之 间 的 神经 网 络 叫做 隐藏 层 ， 一 般 一 个 神经 网 络 的 隐藏 
层 越 多 ， 这 个 神经 网 络 越 “ 深 ”。 而 所 谓 深 度 学 习 中 的 这 个 “深度 ”和 神经 
网 络 的 层 数 也 是 密切 相关 的 。 在 TensorFlow 游 乐 场 中 可 以 通过 点 
击 “+” 或 者 “-” 来 增加 /减少 神经 网 络 隐藏 层 的 数量 。 除 了 可 以 选择 神经 网 
络 的 深度 ，TensorFlow 游 乐 场 也 文 持 选择 神经 网 络 每 一 层 的 节点 数 以 及 
学 习 率 (learning rate) 、 激 活 函 数 〈activation) 、 正 则 化 
Gregularization) 。 如 何 使 用 这 些 参数 将 在 后 面 的 章节 中 讨论 。 在 本 小 
节 中 都 直接 使 用 TensorFlow 游 乐 场 默认 的 设置 。 当 所 有 配置 都 选 好 之 


后 ， 可 以 通过 左上 角 的 开始 标志 "人 人 * 来 训练 这 个 神经 网 络 。 图 3.3 
中 给 出 了 和 迭代 训练 100 轮 之 后 的 情况 。 
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图 3-3 ”TensorFlow 游 乐 场 训 练 100 轮 之 后 的 截图 


如 何 训练 一 个 神经 网 络 将 在 3.4.4 小 节 中 介绍 ， 在 这 里 主要 介绍 如 何 解 读 
TensorFlow 游 乐 场 的 训练 结果 。 在 图 3-3 中 ， 一 个 小 格子 代表 神经 网 络 中 
的 一 个 节点 ， 而 边 代 表 节 点 之 间 的 连接 。 每 一 个 节点 和 边 都 被 涂 上 了 或 
深 或 浅 的 颜色 ， 但 边 上 的 颜色 和 格子 中 的 颜色 含义 有 略微 的 区 别 。 每 一 
条 边 代表 了 神经 网 络 中 的 一 个 参数 ， 它 可 以 是 任意 实数 。 神 经 网 络 就 是 
通过 对 参数 的 合理 设置 来 解决 分 类 或 者 回归 问题 的 。 边 上 的 颜色 体现 了 
这 个 参数 的 取 值 ， 当 边 的 颜色 越 深 时 ， 这 个 参数 取 值 的 绝对 值 越 大 ; 当 
边 的 颜色 接近 白色 时 ， 这 个 参数 的 取 值 接近 于 0 2。 


每 一 个 市 尽 上 的 颜色 代表 了 这 个 节点 的 区 分 平面 。 具 体 来 说 ， 如 果 把 这 
个 平面 当成 一 个 笛 卡 尔 坐 标 系 ， 这 个 平面 上 的 每 一 个 后 束 代 表 了 (x 
，X,) 的 一 种 取 值 。 而 这 个 点 的 颜色 就 体现 了 x,，x ,在 这 种 取 值 下 这 个 
节点 的 输出 值 。 和 边 类 似 ， 当 节点 的 输出 值 的 绝对 值 越 大 时 ， 颜 色 越 深 
号 。 下面 将 具体 解读 输入 层 x ,所 代表 的 节点 。 从 图 3-3 中 可 以 看 到 x ,这 个 
节点 的 区 分 平面 束 是 y 轴 。 因 为 这 个 市 扣 的 输出 就 是 x ， 本 里 的 值 ， 所 以 
当 x ， 小 于 0 时 ， 这 个 节点 的 输出 就 是 负数 ， 而 x， 大 于 0 时 输出 的 就 是 正 
数 。 于 是 y 轴 的 左 侧 都 为 灰色 ， 而 右 侧 都 为 黑色 9。 图 3-3 中 其 他 节点 可 
以 类 似 的 解读 。 唯 一 特殊 的 是 最 右边 OUTPUT 栏 下 的 输出 节点 。 这 个 市 
点 中 除了 显示 了 区 分 平面 之 外 ， 还 显示 了 训练 数据 ， 也 就 是 希望 通过 神 
经 网 络 区 分 的 数据 点 。 从 图 3-3 中 可 以 看 到 ， 经 过 两 层 的 隐藏 层 ， 输 出 
节点 的 区 分 平面 已 经 可 以 完全 区 分 不 同 颜色 的 数据 点 。 


综 上 所 述 ， 使 用 神经 网 络 解决 分 类 问题 主要 可 以 分 为 以 下 4 个 步骤 。 


1. 提取 问题 中 实体 的 特征 向 量 作为 神经 网 络 的 输入 。 不 同 的 实体 可 以 
提取 不 同 的 特征 向 量 ， 本 书 中 将 不 具体 介绍 。 本 书 假设 作为 神经 网 络 输 
入 的 特征 向 量 可 以 直接 从 数据 集中 获取 。 


2. 定义 神经 网 络 的 结构 ， 并 定义 如 何 从 神经 网 络 的 输入 得 到 输出 。 这 
个 过 程 就 是 神经 网 络 的 前 问 传播 算法 ， 在 3.4.2 小 节 中 将 详细 介绍 。 


3. 通过 训练 数据 来 调整 神经 网 络 中 参数 的 取 值 ， 这 就 是 训练 神经 网 络 
的 过 程 。3.4.3 小 节 将 先 介绍 TensorFlow 中 表示 神经 网 络 参数 的 方法 ， 然 
后 3.4.4 小 节 将 大 致 介绍 神经 网 络 优化 算法 的 框架 ， 并 介绍 如 何 通过 
TensorElow 实 现 这 个 框架 。 
































4. 使 用 训练 好 的 神经 网 络 来 预 调 未 知 的 数据 。 这 个 过 程 和 步骤 2 中 的 前 
器 传 播 算法 一 致 ， 本 书 不 再 殉 述 。 


下 面 的 几 个 小 节 将 具体 介绍 如 何 使 用 TensorFlow 来 实现 神经 网 络 中 的 不 
同步 又 。 最 后 在 3.4.5 小 节 将 给 出 一 个 完成 的 程序 来 训练 神经 网 络 。 


3.4.2 ”前 问 传 播 算法 简介 


在 3.4.1 小 节 中 简单 地 介绍 了 神经 网 络 可 以 将 输入 的 特征 癌 量 经 过 层 层 推 
导 得 到 最 后 的 输出 ， 并 通过 这 些 输 出 解决 分 类 或 者 回归 问题 。 那 么 神经 
网 络 的 输出 是 如 何 得 到 的 ? 在 这 一 小 节 中 将 详细 介绍 解决 这 个 问题 的 算 
法 前 回 传 播 算 法 。 不 同 的 神经 网 络 结构 前 癌 传 播 的 方式 也 不 一 样 ， 
本 小 节 将 介绍 最 简单 的 全 连接 网 络 结构 的 前 同 传播 算法 ， 并 且 将 展示 如 
何 通过 TensorFlow 实 现 这 个 算法 。 为 了 介绍 神经 网 络 的 前 同 传播 算法 ， 
需要 先 了 解 神经 元 的 结构 。 神 经 元 是 构成 一 个 神经 网 络 的 最 小 单元 ， 图 
3-4 显 示 了 一 个 最 简单 的 神经 元 结构 。 














图 3-4 神经 元 结构 示意 图 


从 图 3-4 可 以 看 出 ， 一 个 神经 元 有 多 个 输入 和 一 个 输出 。 每 个 神经 元 的 
输入 既 可 以 是 其 他 神经 元 的 输出 ， 也 可 以 是 整个 神经 网 络 的 输入 。 上 所 谓 
神经 网 络 的 结构 就 是 指 的 不 同 神经 元 之 间 的 连接 结构 。 如 图 3-4 所 示 ， 

一 个 最 简 蛙 的 神经 元 结构 的 输出 残 是 所 有 输入 的 加 权 和 号， 而 不 同 输入 
的 权重 就 是 神经 元 的 参数 。 神 经 网 络 的 优化 过 程 就 是 优化 神经 元 中 参数 
取 值 的 过 程 ， 在 后 面 的 章节 中 将 具体 介绍 。 本 小 节 将 重点 介绍 神经 网 络 
的 前 问 传播 过 程 。 图 3-5 给 出 了 一 个 简单 的 判断 零件 是 否 合 格 的 三 层 全 











连接 神经 网 络 。 之 所 以 称 之 为 全 连接 神经 网 络 是 因为 相 邻 两 层 之 间 任 意 
两 个 节点 之 间 都 有 连接 。 这 也 古 为 了 将 这 样 的 网 吉 构 和 后 面 章节 中 将 
要 介绍 的 卷 积 层 、LSTM 结 构 区 分 。 图 3-5 中 除了 输入 层 之 外 的 所 有 节 扣 
都 代表 了 一 个 神经 元 的 结构 。 本 小 节 将 通过 这 个 样 例 来 解释 前 向 传播 的 


整个 过 程 。 








输入 层 隐藏 层 输出 层 








图 3-5 ”判断 零件 是 否 合格 的 三 层 神经 网 络 结构 图 


计算 神经 网 络 的 前 向 传播 结 部 分 信息 。 第 一 个 部 分 是 神经 网 络 
的 输入 ， 这 个 移入 舰 是 从 裤 体 中 提取 的 竺 种 向 量 ” 0 5 中 有 两 
个 输入 ， 一 个 是 零件 的 长 度 x ,， 一 个 是 零件 的 质量 x , 。 第 二 个 部 分 为 神 
经 网 络 的 连接 结构 。 神经 网 络 是 由 神经 元 构成 的 ， 神经 网 络 的 者 构 给 出 
不 同 神经 元 之 间 输 入 输出 的 连接 关系 。 神 经 网 络 中 的 神经 元 也 可 以 称 之 

为 节点 ， 在 本 书 之 后 的 章节 中 将 统一 使 用 节点 来 指 代 神 经 网 络 中 的 神经 
元 。 在 图 3-5 中 ，@a， 有 商人 输入 他 们 分 别 是 x ,和 x , 的 输出 。 而 a ， 
的 输出 则 是 节点 y 的 输入 。 最 后 个 部 分 是 每 个 神经 元 中 的 参数 。 在 图 
3-5 中 用 W 来 家 基 神 经 完 中 的 参数 。 W 的 上 标 表 明了 神经 网 络 的 层 数 ， 
比如 W (1) 表示 第 展 节 点 的 参数 ， 而 2” 表示 第 二 层 节 点 的 参 


数 。W 的 下 标 表明 了 连接 节点 编号 ， 比 如 WS ) 表示 连接 x 和 a 节点 


的 边 上 的 权重 。 如 何 优化 每 “条 边 的 权重 将 在 下 面 的 章 节 中 介绍 2 这 一 
节 假 设 这 些 权重 是 已 知 的 。 给 定神 经 网 络 的 输入 ， 神经 网 络 的 结构 以 及 
边 上 权重 ， 就 可 以 通过 前 回 传 播 算 法 来 计算 出 神经 网 络 的 输出 。 图 3-6 


























展示 了 这 个 神经 网 络 前 向 传播 的 过 程 。 
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图 3-6 ”神经 网 络 前 向 传播 算法 示意 图 


图 3-6 给 出 了 输入 层 的 取 值 x ,=0.7 和 x ,=0.9。 从 输入 层 开始 一 层 一 层 地 使 


用 向 前 传播 算法 。 首 先 隐藏 层 中 有 3 个 节点 ， 每 一 个 节点 的 取 值 都 是 输 
入 层 取 值 的 加 权 和 和。 下面 给 出 了 a,, 取 值 的 详细 计算 过 程 : 


和 


a ,, 和 a ,, 也 可 以 通过 类 似 的 方法 计算 得 到 ， 图 3-6 中 也 给 出 了 具体 的 计算 
公式 。 在 得 到 第 一 层 节 点 的 取 值 之 后 ， 可 以 进一步 推导 得 到 输出 层 的 取 
值 。 类 似 的 ， 输 出 层 中 节 扣 的 取 值 就 是 第 一 层 的 加 权 和 : 
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因为 这 个 输出 值 大 于 闪 值 0， 所 以 在 这 个 样 例 中 最 后 给 出 的 答案 又 是 : 
这 个 产品 是 合格 的 。 这 就 是 整个 前 向 传播 的 算法 。 前 向 传播 算法 可 以 表 
示 为 矩阵 乘法 。 将 输入 x xX ， 组 织 成 一 个 1x2 的 矩阵 


A Es | 而 W" 组 织 成 一 个 2x3 的 矩阵 ; 


这 样 通过 和 矩阵 乘法 可 以 得 到 隐藏 层 三 个 节点 所 组 成 的 问 量 取 值 : 


pos + i, sy + dy, ny + 


类 似 的 输出 层 可 以 表示 为 : 














这 样 就 将 前 后 可 传播 算法 通过 惩 阵 乘法 的 方式 表达 出 来 了 。 在 TensorFlow 
中 和 矩阵 乘法 是 非常 容易 实现 的 。 以 下 TensorFlow 程 序 实现 了 图 3-5 所 示 神 
经 网 络 的 前 同 传播 过 程 。 





a = tf.matmul(x, wi1) 


y = tf.matmul(a, w2) 


其 中 tf.matmul 实 现 了 和 矩阵 乘法 的 功能 。 到 此 为 止 已 经 详细 地 介绍 了 神经 
网 络 的 前 问 传播 算法 ， 并 且 给 出 了 TensorFlow 程 序 来 实现 这 个 过 程 。 在 
之 后 的 章节 中 会 继续 介绍 偏 置 (bias) 、 激 活 函 数 (activation function ) 
等 更 加 复杂 的 神经 元 结构 。 也 会 介绍 卷 积 神经 网 络 ，LSTM 结 构 等 更 加 
复杂 的 神经 网 络 结构 。 对 于 这 些 更 加 复杂 的 神经 网 络 ，TensorFlow 也 提 
供 了 很 好 的 支持 ， 后 面 的 章节 中 再 详细 介绍 。 


3.4.3 ”神经 网 络 参 数 与 TensorFlow 变 
量 


神经 网 络 中 的 参数 是 神经 网 络 实现 分 类 或 者 回归 问题 中 重要 的 部 分 。 本 
小 节 将 更 加 具体 地 介绍 TensorFlow 是 如 何 组 织 、 保 存 以 及 使 用 神经 网 络 
中 的 参数 的 。 在 TensorFlow 中 ， 变 量 (tft.Variable) 的 作用 束 是 保存 和 更 
新 神经 网 络 中 的 参数 。 和 其 他 编程 语言 类 似 ，TensorFlow 中 的 变量 也 需 
要 指定 初始 值 。 因 为 在 神经 网 络 中 ， 给 参数 赋予 随机 初始 值 最 为 常见 ， 
所 以 一 般 也 使 用 随机 数 给 TensorFlow 中 的 变量 初始 化 。 下 面 一 段 代 码 给 
出 了 一 种 在 TensorFlow 中 声明 一 个 2x3 的 矩阵 变量 的 方法 : 

















weights = tf.Variable(tf.random normal([2, 3], stddev=2)) 


这 段 代 码 调用 了 TensorFlow 变 量 的 声明 函数 tf.Variable。 在 变量 声明 函数 
中 给 出 了 初始 化 这 个 变量 的 方法 。TensorFlow 中 变量 的 初始 值 可 以 设置 
成 随机 数 、 和 常数 或 者 是 通过 其 他 变量 的 初始 值 计 算得 到 。 在 上 面 的 样 例 
中 ，tf.random_normal([2，3]，stddev=2) 会 产生 一 个 2x3 的 矩阵 ， 窍 阵 中 的 
元 素 是 均值 为 0， 标 准 差 为 2 的 随机 数 。tft.random_normal 函 数 可 以 通过 
参数 mean 来 指定 平均 值 ， 在 没有 指定 时 默认 为 0。 通 过 满足 正 态 分 布 的 
随机 数 来 初始 化 神经 网 络 中 的 参数 是 一 个 非常 党 用 的 方法 。 除 了 正 态 分 
布 的 随机 数 ，TensorFlow 还 提供 了 一 些 其 他 的 随机 数 生 成 器 ， 表 3-2 列 出 
了 TensorFlow 目 前 支持 的 所 有 随机 数 生 成 器 。 


表 3-2 ”TensorFlow 随 机 数 生 成 函数 











函数 名 称 随机 数 分 布 主要 参数 


tf.random normal 正 态 分 布 平均 值 、 标 准 差 、 
取 值 类 型 


tf.truncated_normal 正 态 分 布 ， 但 如 果 随 机 出 ”平均 值 、 标 准 差 、 
来 的 值 偏离 平均 值 超过 2 个 ” 取 值 类 型 
标准 兰 ， 那 么 这 个 数 将 会 被 


重新 随机 
tf.random_uniform ”均匀 分 布 最 小 、 最 大 取 值 ， 
取 值 类 型 
tf.random_gamma  ” Gamma 分 布 形状 参数 alpha、 尺 
取 值 类 


TensorFlow 也 支持 通过 常数 来 初始 化 一 个 变量 。 表 3-3 给 出 了 TensorFlow 
中 各 用 的 稼 量 声明 方法 。 


表 3-3 TensorFlow 常 数 生成 函数 














函数 名 称 功能 样 例 

tf.zeros 产生 全 0 的 数组 tf.zeros([2, 3], int32) 
—> [[0，0，0]，[0，0， 
0]] 

tf.ones 产生 全 1 的 数组 tf.ones([2, 3], int32) 
—> [[1, 1, 1], [1, 1, 
1]] 

tf.fill 产生 一 个 全 部 为 给 定数 字 tf.fill([2，3], 9) -> 

的 数组 [[9, 9, 9], [9, 9, 9]] 

tf.constant 产生 一 个 给 定 值 的 常量 tf.constant([1, 2, 3]) 

一 > [1,2,3] 


在 神经 网 络 中 ， 偏 置 项 〈bias) 通常 会 使 用 种 数 来 设置 初始 值 。 以 下 代 
码 给 出 了 一 个 样 例 。 


biases = tf.Variable(tf.zeros([3])) 


这 段 代码 将 会 生成 一 个 初始 值 全 部 为 0 且 长 度 为 3 的 变量 。 除 了 使 用 随机 
数 或 者 常数 ，TensorFlow 也 文 持 通 过 其 他 变量 的 初始 值 来 初始 化 新 的 变 
量 。 以 下 代码 给 出 了 具体 的 方法 。 


w2 = tf.Variable (weights.initialized value()) 


w3 = tf.Variable (weights.initialized value() * 2.0) 


以 上 代码 中 ，w2 的 初始 值 被 设置 成 了 与 weights 变 量 相同 。w3 的 初始 值 
则 是 weights 初 始 值 的 两 倍 。 在 TensorFlow 中 ， 一 个 变量 的 值 在 被 使 用 之 
前 ， 这 个 变量 的 初始 化 过 程 需要 被 明确 地 调用 。 以 下 样 例 介 绍 了 如 何 通 
过 变量 实现 神经 网 络 的 参数 并 实现 前 向 传 播 的 过 程 。 





import tensorflow as tf 


# 声明 w1i1、w2 两 个 变量 。 这 里 还 通过 seed 参 数 设 定 了 随机 种 子 ， 
# 这 样 可 以 保证 每 次 运行 得 到 的 结果 是 一 样 的 。 
wi = tf.Variable(tf.random normal([2, 3], stddev=1, seed=1)) 


w2 = tf.Variable(tf.random normal([3, 1], stddev=1, seed=1)) 


# 暂时 将 输入 的 特征 向 量 定义 为 一 个 常量 。 注 意 这 里 x 是 一 个 1*2 的 矩阵 。 


x = tf.constant([[0.7, 0.9]]) 


# 通过 3 .4.2 小 节 描 述 的 前 向 传播 算法 获得 神经 网 络 的 输出 。 


a = tf.matmul(x, w1) 


y = tf.matmul(a, w2) 


sess = tf.Session() 
# 与 3,4.2 中 的 计算 不 同 ， 这 里 不 能 直接 通过 sess .run(y) 来 获取 y 的 取 值 ， 
# 因为 v1 和 w2 都 还 没有 运行 初始 化 过 程 。 下 面 的 两 行 分 别 初始 化 了 wi 和 w2 两 个 变 


各 


sess.run(w1.initializer) 六 初始 化 wi 
sess.run(w2.initializer) # 初始 化 w2 
# 输出 [[3.95757794] ] 
print(sess.run(y)) 


sess.close() 


上 面 这 段 程 序 实现 了 神经 网 络 的 前 同 传 播 过 程 。 从 这 段 代 码 可 以 看 到 ， 
当 声 明了 变量 wl1、w2 之 后 ， 可 以 通过 w1 和 w2 来 定义 神经 网 络 的 前 问 传 
播 过 程 并 得 到 中 间 结 果 a 和 最 后 答案 y。 定 义 w1、w2、a 和 y 的 过 程 对 应 
了 3.1.2 小 节 中 介绍 的 TensorFlow 程 序 的 第 一 步 。 这 一 步 定 义 了 
TensorFlow 计 算 图 中 所 有 的 计算 ， 但 这 些 被 定义 的 计算 在 这 一 步 中 并 不 
真正 的 运行 。 当 需要 运行 这 些 计算 并 得 到 具体 数字 时 ， 需 要 进入 
TensorFlow 程 序 的 第 二 步 。 


在 TensorFlow 程 序 的 第 二 步 会 声明 一 个 会 话 (session) ， 并 通过 会 话 计 
算 结果 。 在 上 面 的 样 例 中 ， 当 会 话 定 义 完 成 之 后 就 可 以 开始 真正 运行 定 
义 好 的 计算 了 。 但 在 计算 y 之 前 ， 需 要 将 所 有 用 到 的 变量 初始 人 化。 也 就 
是 说 ， 虽 然 在 变量 定义 时 给 出 了 变量 初始 化 的 方法 ， 但 这 个 方法 并 没有 
被 真正 运行 。 所 以 在 计算 y 之 前 ， 需 要 通过 运行 w1.initializer 和 
w2.initializer 来 给 变量 赋值 。 虽 然 直 接 调用 每 个 变量 的 初始 化 过 程 是 一 
个 可 行 的 方案 ， 但 是 当 变 量 数目 增多 ， 或 者 变量 之 间 存 在 依赖 关系 时 ， 
单个 调用 的 方案 就 比较 厅 烦 了 。 为 了 解决 这 个 问题 ，TensorFlow 提 供 了 
一 种 更 加 便捷 的 方式 来 完成 变量 初始 化 过 程 。 下 面 的 程序 展示 了 通过 
tf.initialize_all_variables 函 数 实 现 初 始 化 所 有 变量 的 过 程 。 






































init op = tf.initialize all _ variables() 


sess.run(init_op) 





通过 tf.initialize_all_variables 函 数 ， 就 不 需要 将 变量 一 个 一 个 初始 化 了 。 
这 个 函数 也 会 上 自动 处 理 变 量 之 间 的 依赖 和 关系。 下 面 的 章节 都 将 使 用 这 个 
函数 来 完成 变量 的 初始 化 过 程 。 


在 3.2 节 中 介绍 过 TensorFlow 的 核心 概念 是 张 量 (tensor) ， 所 有 的 数据 
都 是 通过 张 量 的 形式 来 组 织 的 ， 那 么 本 小 节 介 绍 的 变量 和 张 量 是 什么 关 
系 昵 ?在 TensorFlow 中 ， 变 量 的 声明 函数 tf.Variable 是 一 个 运算 。 这 个 运 
算 的 输出 结果 就 是 一 个 张 量 ， 这 个 张 量 也 束 是 本 节 中 介绍 的 变量 。 所 以 
变量 只 是 一 种 特殊 的 张 量 。 下 面 将 进一步 介绍 tf.Variable 操 作 在 
TensorFlow 中 底层 是 如 何 实现 的 。 图 3-7 给 出 了 神经 网 络 前 问 传 播 样 例 程 
pi 算 图 的 一 个 部 分 ， 这 个 部 分 显示 了 和 变量 wl 相关 的 操 
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图 3-7 神经 网 络 前 向 传播 样 例 中 变量 w1 相 关 部 分 的 计算 图 可 视 化 结果 号 


在 图 3-7 上 黑色 的 椭圆 代表 了 变量 w1， 可 以 看 到 wl 是 一 个 Variable 运 

算 。 在 这 张 图 的 下 方 可 以 看 到 w1 通 过 一 个 read 操 作 将 值 提 供给 了 一 个 乘 
法 运算 ， 这 个 乘法 操作 就 是 tf.matmul (x， w1) 。 初 始 化 变量 w1 的 操作 
是 通过 Assign 操 作 完 成 的 。 在 图 3-7 上 可 以 看 到 Assign 这 个 节点 的 输入 为 
随机 数 生成 函数 的 输出 ， 而 且 输 出 赋 给 了 变量 w1。 这 样 就 完成 了 变量 
初始 化 的 过 程 。 

3.1.2 小 节 介 绍 了 TensorFlow 中 集合 (collection) 的 概念 ， 所 有 的 变量 都 


会 被 自动 的 加 入 GraphKeys.VARIABLES 这 个 集合 。 通 过 tf.all_variables 
函数 可 以 拿 到 当前 计算 网 上 所 有 的 变量 。 拿 到 计算 网 上 所 有 的 变量 有 助 














于 持久 化 整个 计算 图 的 运行 状态 ， 在 第 5 章 中 将 更 加 详细 地 介绍 。 当 构 
建 机 器 学 习 模 型 时 ， 比 如 神经 网 络 ， 可 以 通过 变量 声明 函数 中 的 
trainable 参 数 来 区 分 需要 优化 的 参数 〈 比 如 神经 网 络 中 的 参数 ) 和 其 他 
参数 《〈 比 如 迭代 的 轮 数 ) 。 如 果 声 明 变 量 时 参数 trainable 为 True， 那 么 
这 个 变量 将 会 被 加 入 GraphKeys.TRAINABLE ”VARIABLES 集 合 。 在 
TensorFlow 中 可 以 通过 tf.trainable_variables 函 数 得 到 所 有 需要 优化 的 参 
数 。TensorFlow 中 提供 的 神经 网 络 优化 算法 会 将 
GraphKeys.TRAINABLE_VARIABLES 集 合 中 的 变量 作为 默认 的 优化 对 
象 。 





类 似 张 量 ， 维 度 〈shape) 和 类 型 〈type) 也 是 变量 最 重要 的 两 个 属性 。 
和 大 部 分 程序 语言 类 似 ， 变 量 的 类 型 是 不 可 改变 的 。 一 个 变量 在 构建 之 
后 ， 它 的 类 型 就 不 能 再 改变 了 。 比 如 在 上 面 给 出 的 前 向 传播 样 例 中 ， 
W1 的 类 型 为 random_normal 结 果 的 默认 类 型 tf.float32， 那 么 它 将 不 能 被 
赋予 其 他 类 型 的 值 。 以 下 代码 将 会 报 出 类 型 不 匹配 的 错误 。 





wi = tf.Variable(tf.random normal([2, 3], stddev=1), name="w1 
w2 = tf.Variable(tf.random normal([2, 3], dtype=tf.float64, s 
name="w2") 


wi.assign(w2) 


程序 将 报错 : 


TypeError: Input 'value' of 'Assign' Op has type float64 that 





维度 是 变量 另 一 个 重要 的 属性 。 和 类 型 不 大 一 样 的 是 ， 维 度 在 程序 运行 
中 是 有 可 能 改变 的 ， 但 是 需要 通过 设置 参数 validate_shape=False。 下 面 
给 出 了 一 段 示 范 代码 。 








wi = tf.Variable(tf.random normal([2, 3], stddev=1), name="w1 
w2 = tf.Variable(tf.random normal([2, 2], stddev=1), name="w2 
# 下 面 这 名 会 报 维度 不 匹配 的 错误 : 

# ValueError: Shapes (2, 3) and (2, 2) are not compatible 
tf.assign(wi, w2) 

# 这 一 句 可 以 被 成 功 执 行 。 


tf.assign(wi, w2, validate_shape=False) 





虽然 TensorFlow 支 持 更 改变 量 的 维度 ， 但 是 这 种 用 法 在 实践 中 比较 军 
见 。 


3.4.4 ”通过 TensorFlow 训 练 神经 网 络 
模型 


3.4.3 小 节 介 绍 了 如 何 通 过 TensorFlow 变 量 来 表示 神经 网 络 中 的 参数 ， 并 
给 出 了 一 个 样 例 程序 来 完成 神经 网 络 的 前 同 传播 过 程 。 在 这 个 样 例 程序 
中 ， 所 有 变量 的 取 值 都 是 随机 的 。 在 使 用 神经 网 络 解决 实际 的 分 类 或 者 
回归 问题 时 《比如 判断 一 个 零件 是 否 合格 ) 需要 更 好 地 设置 参数 取 值 。 
这 一 小 节 将 简单 介绍 使 用 监督 学 习 的 方式 来 更 合理 地 设置 参数 取 值 ， 同 
时 也 将 给 出 TensorFlow 程 序 来 完成 这 个 过 程 。 设 置 神经 网 络 参数 的 过 程 
束 是 神经 网 络 的 训练 过 程 。 只 有 经 过 有 效 训 练 的 神经 网 络 模型 才 可 以 真 
正 的 解决 分 类 或 者 回归 问题 。 图 3-8 对 比 了 训练 之 前 和 训练 之 后 神经 网 
络 模型 的 分 类 效果 。 从 图 中 可 以 看 出 ， 模 型 在 训练 之 前 是 完全 无 法 区 分 
黑色 点 和 灰色 点 的 ， 但 经 过 训练 之 后 区 分 效果 已 经 很 好 了 。 











图 3-8 ”TensorFlow 游 乐 场 训练 前 和 训练 后 效果 对 比 


使 用 监督 学 习 的 方式 设置 神经 网 络 参数 需要 有 一 个 标注 好 的 训练 数据 

集 。 以 判断 零件 是 人 否 合格 为 例 ， 这 个 标注 好 的 训练 数据 集 就 是 收集 的 一 
批 合格 零件 和 一 批 不 合格 零件 。 在 图 3-8 中 ， 图 上 黑色 点 和 灰色 点 代表 
的 就 是 训练 数据 集 ， 而 平面 上 或 深 或 浅 的 颜色 表示 了 神经 网 络 模型 做 出 
的 判断 。 如 3.4.1 小 节 所 介绍 的 ， 一 个 地 方 的 颜色 越 深 ， 那 么 表示 神经 网 
络 模型 对 它 的 判断 越 有 信心 符 。 左 侧 的 图 片 显示 的 是 一 个 神经 网 络 在 训 
练 之 前 的 分 类 效果 ， 这 时 所 有 变量 的 取 值 都 是 随机 数 。 可 以 看 到 这 个 平 
面 上 的 颜色 都 很 浅 ， 而 且 完全 区 分 不 出 灰色 点 和 黑色 点 。 右 侧 图 片 显示 
了 经 过 训练 后 的 神经 网 络 的 情况 。 可 以 看 到 图 上 黑色 点 和 灰色 点 可 以 很 
清晰 地 被 区 分 开 来 ， 而 且 除 了 中 间 有 一 圈 是 浅 色 的 ， 其 他 地 方 神经 网 络 
都 可 以 给 出 非常 确定 的 答案 。 


监督 学 习 最 重要 的 思想 就 是 ， 在 已 知 答案 的 标注 数据 集 上 ， 模 型 给 出 的 
预测 结果 要 尽量 接近 真实 的 答案 。 通 过 调整 神经 网 络 中 的 参数 对 训练 数 
据 进 行 拟 合 ， 可 以 使 得 模型 对 未 知 的 样本 提供 预测 的 能 力 。 图 3-8 中 右 
侧 图 片 中 右上 和 角 的 深 色 点 就 很 有 可 能 和 灰色 点 有 相同 的 标签 。 如 果 灰 色 
点 代表 不 合格 的 零件 ， 那 么 这 个 深 色 点 所 代表 的 零件 应 该 也 不 合格 。 


在 神经 网 络 优化 算法 中 ， 最 音 用 的 方法 是 反 回 传播 算法 
(backpropagation) 。 反 辐 传 播 算法 的 具体 工作 原理 将 在 下 面 的 4.3 小 节 
中 详 述 。 本 小 节 将 主要 介绍 训练 神经 网 络 的 整体 流程 以 及 TensorFlow 对 
图 3-9 展 示 了 使 用 反 回 传播 算法 训练 神经 网 络 的 流 
时 图 。 
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图 3-9 ”神经 网 络 反 向 传播 优化 流程 图 


从 图 3-9 中 可 以 看 出 ， 有 反问 传 播 算 法 实现 了 一 个 沈 代 的 过 程 。 在 每 次 达 
代 的 开始 ， 首 先 需 要 选取 一 小 部 分 训练 数据 ， 这 一 小 部 分 数据 叫做 一 个 
batch。 然 后 ， 这 个 batch 的 样 例会 通过 前 向 传播 算法 得 到 神经 网 络 模 型 

的 预测 结果 。 因 为 训练 数据 都 是 有 正确 答案 标注 的 ， 所 以 可 以 计算 出 当 
前 神经 网 络 模 型 的 预测 答案 与 正确 答案 之 间 的 肛 距 。 最 后 ， 基 于 这 预测 
值 和 真实 值 之 间 的 差距 ， 反 同 传播 算法 会 相应 更 新 神经 网 络 参数 的 取 

值 ， 使 得 在 这 个 batch 上 神经 网 络 模型 的 预测 结果 和 真实 答案 更 加 接近 。 


通过 TensorFlow 实 现 反 回 传 播 算 法 的 第 一 步 是 使 用 TensorFlow 表 达 一 个 
batch 的 数据 。 在 3.4.3 小 节 中 演 试 过 使 用 常量 来 表达 过 一 个 样 例 : 











x = tf.constant([[0.7, 0.9]]) 


但 如 果 每 轮 迭 代 中 选取 的 数据 都 要 通过 常量 来 表示 ， 那 么 TensorFlow 的 
计算 图 将 会 太 大 。 因 为 每 生成 一 个 常量 ，TensorFlow 都 会 在 计算 图 中 增 
加 一 个 节点 。 一 般 来 说 ， 一 个 神经 网 络 的 训练 过 程 会 需要 经 过 几 百 万 轮 
甚至 几 亿 轮 的 迭代 ， 这 样 计 算 图 束 会 非常 大 ， 而 且 利用 率 很 低 。 为 了 避 
免 这 个 问题 ，TensorFlow 提 供 了 placeholder 机 制 用 于 提供 输入 数据 。 
placeholder 相 当 于 定义 了 一 个 位 置 ， 这 个 位 置 中 的 数据 在 程序 运行 时 再 
指定 。 这 样 在 程序 中 就 不 需要 生成 大 量 常量 来 提供 输入 数据 ， 而 只 需要 
将 数据 通过 placeholder 传 入 TensorFlow 计 算 图 。 在 placeholder 定 义 时 ， 这 























个 位 置 上 的 数据 类 型 是 需要 指定 的 。 和 其 他 张 量 一 样 ，placeholder 的 类 
型 也 是 不 可 以 改变 的 。placeholder 中 数据 的 维度 信息 可 以 根据 提供 的 数 
据 推 导 得 出 ， 所 以 不 一 定 要 给 出 。 下 面 给 出 了 通过 placeholder 实 现 前 回 
传播 算法 的 代码 。 














import tensorflow as tf 


wi = tf.Variable(tf.random normal([2, 3], stddev=1)) 


w2 = tf.Variable(tf.random normal([3, 1], stddev=1)) 


# 定义 placeholder 作 为 存放 输入 数据 的 地 方 。 这 里 维度 也 不 一 定 要 定义 。 
# 但 如 果 维 度 是 确定 的 ， 那 么 给 出 维度 可 以 降低 出 错 的 概率 。 


tf.placeholder(tf.float32, shape=(1, 2), name="input") 


X 


a = tf.matmul(x, w1) 


y = tf.matmul(a, w2) 


sess = tf.Session() 
init_op = tf.initialize all variables() 


sess.run(init_op) 


并 下 面 一 行将 报错 : 


InvalidArgumentError: You must feed a value for placeholder 
# tensor 'input_1' with dtype float and shape [1,2] 


print(sess.run(y)) 


# 下 面 一 行将 会 得 到 和 3 .4.2 小 节 中 一 样 的 输出 结果 : [[3.95757794] ] 


print(sess.run(y, feed_ dict={x: [[90.7,0.9]]1})) 


在 这 上 段 程序 中 替换 了 原来 通过 常量 定义 的 输入 x。 在 新 的 程序 中 计算 前 
向 传播 结果 时 ， 需 要 提供 一 个 feed_dict 来 指定 x 的 取 值 。feed_dict 是 一 个 
字典 (map) ， 在 字典 中 需要 给 出 每 个 用 到 的 placeholder 的 取 值 。 如 果 
某 个 需要 的 placeholder 没 有 被 指定 取 值 ， 那 么 程序 在 运行 时 将 会 报错 。 


上 面 的 程序 只 计算 了 一 个 样 例 的 前 问 传 播 结果 ， 但 如 图 3-9 所 示 ， 在 训 
练 神经 网 络 时 需要 每 次 提供 一 个 batch 的 训练 样 例 。 对 于 这 样 的 需求 ， 
placeholder 也 可 以 很 好 地 支持 。 在 上 面 的 样 例 程序 中 ， 如 果 将 输入 的 
1x2 和 矩阵 改 为 n x2 的 矩阵 ， 那 么 束 可 以 得 到 n 个 样 例 的 前 同 传 播 结果 了 。 
其 中 n x2 的 矩阵 的 每 一 行为 一 个 样 例 数据 。 这 样 前 向 传播 的 结果 为 mn x1 
的 矩阵 ， 这 个 矩阵 的 每 一 行 束 代表 了 一 个 样 例 的 前 回 传 播 结果 。 下 面 的 
程序 片 给 出 了 一 个 示例 。 


Be 














x = tf.placeholder(tf.float32, shape=(3, 2), name="input") 


… # 中 间 部 分 和 上 面 的 样 例 程序 一 样 。 
# 因为 x 在 定义 时 指定 了 n 为 3， 所 以 在 运行 前 向 传播 过 程 时 需要 提供 3 个 样 例 数据 。 





print(sess,run(y， feed_dict= 
[[90.7,0.9], [90.1,0.4], [9.5,09.8]]1})) 


输出 结果 为 : 
[[ 3.95757794] 
[ 1.15376544] 


[ 3.167491911] ] 


上 面 的 样 例 展 示 了 一 次 性 计算 多 个 样 例 的 前 向 传播 结果 。 在 运行 时 ， 需 
要 将 3 个 样 例 [0.7,0.9]、[0.1,0.4] 和 [0.5,0.8] 组 成 一 个 3x2 的 矩阵 传 入 
placeholder。 计 算得 到 的 结果 为 3x1 的 和 矩阵。 其 中 第 一 行 3.95757794 为 样 
例 [0.7,0.9] 的 前 向 传播 结果 ;，1.15376544 为 样 例 [0.1,0.4] 的 前 向 传播 结 
果 ; 3.16749191 为 样 例 [0.5,0.8] 的 前 向 传播 结果 。 


在 得 到 一 个 batch 的 前 同 传 播 结 果 之 后 ， 需 要 定义 一 个 损失 函数 来 刻画 当 
前 的 预测 值 和 真实 答案 之 间 的 差距 。 人 然后 通过 反问 传播 算法 来 调整 神经 
网 络 参 数 的 取 值 使 得 差距 可 以 被 缩小 。 损 失 函 数 和 反 回 传播 算法 将 在 第 
4 章 中 更 加 详细 地 介绍 。 以 下 代码 定义 了 一 个 简单 的 损失 函数 ， 并 通过 

TensorFlow 定 义 了 反问 传播 的 算法 。 





# 定义 损失 函数 来 刻画 预测 值 与 真实 值得 差距 。 
cross_entropy = -tf.reduce_mean( 

y_ * tf.log(tf.clip by _value(y, 1e-10, 1.0))) 
# 定义 学 习 率 ， 在 第 4 章 中 将 更 加 具体 的 介绍 学 习 率 。 
learning_rate = 0.001 
# 定义 反 向 传播 算法 来 优化 神经 网 络 中 的 参数 。 
train_step =\ 


tf.train.AdamOptimizer(learning_rate).minimize(cross_entr 


在 上 面 的 代码 中 ，cross_entropy 定 义 了 真实 值 和 预测 值 之 间 的 交 文 粹 皇 
(cross entropy)〉， 这 是 分 类 问题 中 一 个 常用 的 损失 函数 。 第 二 行 
train_step 定 义 了 反问 传播 的 优化 方法 。 目 前 TensorFlow 支 持 7 种 不 同 的 
优化 器 ， 读 者 可 以 根据 具体 的 应 用 选择 不 同 的 优化 算法 。 比 较 常 用 的 优 
化 方法 有 三 种 : tf.train.GradientDescentOptimizer、tf.train.AdamOptimizer 
和 tf.train.MomentumOptimizer。 在 定义 了 有 反 同 传播 算法 之 后 ， 通 过 运行 
sess.run(train_step) 束 可 以 对 所 有 在 
GraphKeys.TRAINABLE VARIABLES 集 合 中 的 变量 上 -进行 优化 ， 使 得 
在 当前 batch 下 损失 函数 更 小 。 下 面 的 3.4.5 小 节 将 给 出 一 个 完整 的 训练 神 
经 网 络 样 例 程序 。 





3.4.5 “完整 神经 网 络 样 例 程序 


本 小 节 将 在 一 个 模拟 数据 集 上 训练 神经 网 络 。 下 面 给 出 了 一 个 完整 的 程 
序 来 训练 神经 网 络 解决 二 分 类 问题 。 


import tensorflow as tf 











# NumPy 是 一 个 科学 计算 的 工具 包 ， 这 里 通过 NumPy 工 具 包 生成 模拟 数据 集 。 


from numpy.random import RandomState 
# 定义 训练 数据 batch 的 大 小 。 


batch_ size = 8 


# 定义 神经 网 络 的 参数 ， 这 里 还 是 沿用 3 .4.2 小 节 中 给 出 的 神经 网 络 结构 。 
wi = tf.Variable(tf.random normal([2, 3], stddev=1, seed=1)) 


w2 = tf.Variable(tf.random normal([3, 1], stddev=1, seed=1)) 


# 在 shape 的 一 个 维度 上 使 用 None 可 以 方便 使 用 不 同 的 batch 大 小 。 在 训练 时 需要 
把 数据 分 


# 成 比较 小 的 batch， 但 是 在 测试 时 ， 可 以 一 次 性 使 用 全 部 的 数据 。 当 数据 集 比 较 
小 时 这 样 比 较 


# 方便 测试 ， 但 数据 集 比较 大 时 ， 将 大 量 数据 放 入 一 个 batch 可 能 会 导致 内 存 洲 


x = tf.placeholder(tf.float32, shape=(None, 2), name='x- 
input"') 


y_ = tf.placeholder(tf.float32, shape=(None, 1), name='y- 
input") 


# 定义 神经 网 络 前 向 传播 的 过 程 。 


[eb 
Il 


tf.matmul(x, w1) 


y = tf.matmul(a, w2) 


# 定义 损失 函数 和 反 向 传播 的 算法 。 
cross_entropy = -tf.reduce_mean( 
y_ * tf.log(tf.clip_ by_value(y, 1e-10, 1.0))) 


train_step = tf,train.Adamoptimizer(0.001) .minimize(cross_ent 


# 通过 随机 数 生 成 一 个 模拟 数据 集 。 
rdm = RandomState(1) 
dataset_size = 128 

X= rdm.rand(dataset_ size, 2) 


# 定义 规则 来 给 出 样本 的 标签 。 在 这 里 所 有 x1+x2<1 的 样 例 都 被 认为 是 正 样本 ( 比 


如 零件 合格 )， 


# 而 其 他 为 负 样 本 (比如 零件 不 合格 )。 和 TensorFlow 游 乐 场 中 的 表示 法 不 大 一 样 


的 地 方 是 ， 


可 在 这 里 使 用 0 来 表示 负 样 本 ，1 来 表示 正 样本 。 大 部 分 解决 分 类 问题 的 神经 网 络 都 
# 9 和 1 的 表示 方法 。 


Y = [[int(xi+x2 < 1)] for (x1i, x2) in Xx] 


# 创建 一 个 会 话 来 运行 TensorFlow 程 序 。 


with tf.Session() as sess: 


init op = tf.initialize all variables() 
# 初始 化 变量 。 

sess.run(init_op) 

print sess.run(w1) 


print sess.run(w2) 


在 训练 之 前 神经 网 络 参 数 的 值 : 


w1 = [[-0.81131822, 1.48459876, 0.06532937] 
[-2.44270396，0.0992484，0.591224311] ] 
w2 = [[-0.81131822], [1.48459876], [0.06532937]] 
设 定 训练 的 轮 数 。 


STEPS = 5000 
for i In range(STEPS ) : 
# 每 次 选取 batch_size 个 样本 进行 训练 。 
start = (i * batch_size) % dataset_size 


end = min(start+batch_size, dataset_ size) 


通过 选取 的 样本 训练 神经 网 络 并 更 新 参数 。 
sess.run(train_step, 


feed_dict= 
{x: Xx[start:end], y_: Ylstart:end]}) 


if i % 1000 == 


# 每 隔 一 段 时 间 计 算 在 所 有 数据 上 的 交叉 炳 并 输出 。 


total_cross_entropy = sess.run( 


cross_entropy, feed dict={x: XxX, y_: Y}) 


print("After %d training step(s), cross entropy 0 


(i, total cross_entropy)) 


输出 结果 : 


After © training step(s), cross entropy on 


After 1000 training step(s), cross entropy 


After 2000 training step(s), cross entropy 


After 3000 training step(s), cross entropy 


After 4000 training step(s), cross entropy 


all da 


on all 


on all 


on all 


on all 


通过 这 个 结果 可 以 发 现 随 着 训练 的 进行 ， 交 叉 燃 是 逐渐 变 小 的 。 交 


又 粒 越 小 说 明 
预测 的 结果 和 真实 的 结果 差距 越 小 。 


print sess.run(w1) 


print sess,run(w2) 


在 训练 之 后 神经 网 络 参 数 的 值 : 


w1 = [[-1.9618274，2.58235407，1.68203783] 
[-3.4681716，1.06982327，2.11788988] ] 
w2 = [[-1.8247149]，[2.68546653]， [1.41819501]] 


可 以 发 现 这 两 个 参数 的 取 值 已 经 发 生 了 变化 ， 这 个 变化 就 是 训练 的 结果 。 
它 使 得 这 个 神经 网 络 能 更 好 的 拟 合 提 供 的 训练 数据 。 


上 面 的 程序 实现 了 训练 神经 网 络 的 全 部 过 程 。 从 这 上段 程序 可 以 总 结 出 训 
练 神经 网 络 的 过 程 可 以 分 为 以 下 3 个 步骤 : 


1. 定义 神经 网 络 的 结构 和 前 辐 传 播 的 输出 结 采 。 
2. 定义 损失 函数 以 及 选择 反问 传播 优化 的 算法 。 


生成 会 话 (tf.Session) 并 且 在 训练 数据 上 反复 运行 反问 传播 优化 算 
ys 


无 论 神经 网 络 的 结构 如 何 变 化 ， 这 3 个 步 又 是 不 变 的 。 
十 
2 


本 章 首 先 介绍 了 TensorFlow 里 最 基本 的 三 个 概念 计算 图 

Gtf.Graph) 、 张 量 (tf.Tensor) 和 会 话 (tf.Session) 。 在 3.1 节 中 ， 介 绍 
了 TensorFlow 中 计算 图 的 概念 。 计 算 图 是 TensorFlow 的 计算 模型 ， 所 有 
TensorFlow 的 程序 都 会 通过 计算 图 的 形式 表示 。 计 算 图 上 的 每 一 个 节点 
都 是 一 个 运算 ， 而 计算 图 上 的 边 则 表示 了 运算 之 间 的 数据 传递 关系 。 计 
算 图 上 还 保存 了 运行 每 个 运算 的 设备 信息 《比如 是 通过 CPU 上 还 是 GPU 
运行 ) 以 及 运算 之 间 的 依赖 关系 。 计 算 图 提供 了 管理 不 同 集合 的 功能 ， 
并 且 TensorFlow 会 自动 维护 五 个 不 同 的 默认 集合 。3.2 节 介绍 了 张 量 的 概 
念 。 张 量 是 TensorFlow 的 数据 模型 ，TensorFlow 中 所 有 运算 的 输入 、 输 
出 都 是 张 量 。 张 量 本 身 并 不 存储 任何 数据 ， 它 只 是 对 运算 结果 的 引用 。 
通过 张 量 ， 可 以 更 好 地 组 织 TensorFlow 程 序 。 接 着 3.3 节 介绍 了 
TensorFlow 中 的 会 话 。 会 话 是 TensorFlow 的 运算 模型 ， 它 管理 了 一 个 
TensorFlow 程 序 拥 有 的 系统 资源 ， 所 有 的 运算 都 要 通过 会 话 执行 。 


本 章 的 最 后 一 节 介 绍 了 如 何 使 用 TensorFlow 来 实现 神经 网 络 的 训练 过 
程 。 首 先 3.4.1 小 节 绪 合 TensorFlow 游 乐 场 简单 介绍 了 神经 网 络 的 大 致 功 
能 ， 并 介绍 了 使 用 神经 网 络 的 几 个 主要 步骤 。 然 后 在 接 下 来 的 3.4.2 到 
3.4.4 小 节 中 ， 依 次 介绍 了 神经 网 络 的 前 同 传 播 算法 、 神 经 网 络 中 的 参数 
































在 TensorFlow 中 的 表示 以 及 神经 网 络 的 反问 传播 优化 算法 框架 。 综 合 这 
3 个 小 市 的 内 容 ， 最 后 3.4.5 小 市 给 出 了 一 个 完整 的 TensorFlow 程 序 来 训 
网 络 。 在 下 面 的 第 4 章 中 ， 将 更 加 深入 地 介绍 设计 和 优化 神经 网 
J 细节。 








(1) TensorBoard 是 TensorFlow 的 可 视 化 工具 ， 第 9 章 将 详细 介绍 这 个 工具 。 











C@) 为 了 建 模 的 方便 ，TensorFlow 会 将 常量 转化 成 一 种 永远 输出 固定 值 的 运算 。 





(3) 第 4 章 将 更 加 详细 地 介绍 TensorFlow 中 变量 的 概念 。 





(4) 张 量 的 类 型 也 可 以 是 字符 串 ， 但 在 本 书 中 不 做 过 多 的 讨论 。 














(5) 第 6 章 将 介绍 卷 积 神经 网 络 。 





(6) Protocol Buffer 在 第 2 章 中 有 介绍 。 


























(7 ”在 真实 问题 中 ， 一 般 会 从 实体 中 抽取 更 多 的 特征 ， 所 以 一 个 实体 会 被 表示 为 高 维 空间 中 的 


vo 

















(8) 有 一 些 神经 网 络 是 可 以 跨 层 连接 的 ， 但 目前 大 部 分 神经 网 络 结构 中 都 只 是 相 邻 两 层 有 连 
接 。 
































(9) 在 TensorFlow 游 乐 场 网 站 上 ， 边 的 颜色 有 黄色 〔 文 中 浅 色 部 分 ) 和 蓝 色 〈 文 中 深 色 部 分 ) 的 
区 别 ， 黄 色 越 深 表 示 负 得 越 大 ， 蓝 色 越 深 表 示 正 得 越 大 。 























(10) 类似 边 上 的 颜色 ，TensorFlow 游 乐 场 网 站 中 ， 点 上 的 颜色 也 有 黄色 文中 浅 色 部 分 ) 和 蓝 
色 〔 文 中 深 色 部 分 ) ， 和 边 上 颜色 类 似 ， 黄 色 越 深 表 示 负 得 越 大 ， 蓝 色 越 深 表 示 正 得 越 大 。 












































GD_ 在 TensorFlow 游 乐 场 中 ，y 轴 左 侧 为 黄色 《文中 浅 色 部 分 ) ， 右 侧 为 赣 色 《文中 深 色 部 


分 ) 。 





























(12) 更 加 复杂 的 神经 元 结构 将 在 第 4 章 中 介绍 。 























(13) 此 图 是 通过 TensorBoard 可 视 化 工具 绘制 的 ， 将 在 第 9 章 中 详细 介绍 TensorBoard。 
































(14) 在 TensorFlow 游 乐 场 有 两 种 颜色 ， 一 种 黄色 文中 浅 色 部 分 ) ， 一 种 蓝 色 〔 文 中 深 色 部 
分 ) 。 任 意 一 种 颜色 越 深 ， 都 代表 判断 的 信心 越 大 。 















































(15) 在 第 4 章 中 将 更 加 具体 的 介绍 交叉 焙 损 失 函 数 。 




















(16) TensorFlow 计 算 图 中 集合 的 概念 在 3.1.2 小 节 有 介 


第 4 草 ”深层 神经 网 络 

















4.1 深度 学 习 与 深层 神经 网 络 


维基 百科 对 深度 学 习 的 精确 定义 为 “一 类 通过 多 层 非 线性 变换 对 高 复杂 
性 数据 建 模 算法 的 合集 ” 2 一 。 因 为 深层 神经 网 络 是 实现 “多 层 非 线性 变 
换 ” 最 常用 的 一 种 方法 ， 所 以 在 实际 中 基本 上 可 以 认为 深度 学 习 就 是 深 
层 神 经 网 络 的 代名词 。 从 维基 百科 给 出 的 定义 可 以 看 出 ， 深 度 学 习 有 两 
个 非常 重要 的 特性 多 层 和 非 线 性 。 那 么 为 什么 要 强调 这 两 个 性 质 ? 
本 小 节 将 给 出 详细 的 解释 ， 并 且 将 通过 具体 的 样 例 来 说 明 这 两 点 在 对 复 
杂 问 题 建 模 时 是 缺 一 不 可 的 。4.1.1 小 节 将 先 介绍 线性 变换 存在 的 问题 ， 
以 及 为 什么 要 在 深度 学 习 的 定义 中 强调 “复杂 问题 ”。 然 后 在 4.1.2 小 节 

中 ， 将 介绍 如 何 实现 去 线性 化 ， 并 给 出 TensorFlow 程 序 来 实现 去 线性 化 
的 功能 。 最 后 4.1.3 小 节 将 介绍 一 个 具体 的 样 例 来 说 明 深 层 网 络 比 浅 层 网 
络 可 以 解决 更 多 的 问题 。 


4.1.1 线性 模型 的 局 限 性 


在 线性 模型 中 ， 模 型 的 输出 为 输入 的 加 权 和 。 假 设 一 个 模型 的 输出 y 和 
输入 x ,满足 以 下 关系 ， 那 么 这 个 模型 就 是 一 个 线性 模型 。 


y= > wixit+b 
i 


其 TH . 万 己 民 为 模型 的 参数 。 被 称 之 为 线性 模型 是 因为 当 


模型 的 输入 只 有 一 个 的 时 候 ，x 和 y 形成 了 二 维 坐标 系 上 的 一 条 直线 。 
类 似 的 ， 当 模型 有 n 个 输入 时 ，x 和 y 形成 了 n +1 维 空间 中 的 一 个 平面 。 
而 一 个 线性 模型 中 通过 输入 得 到 输出 的 函数 被 称 之 为 一 个 线性 变换 。 上 
面 的 公式 束 是 一 个 线性 变换 。 线 性 模型 的 最 大 特点 是 任意 线性 模型 的 组 
合 仍然 还 是 线性 模型 。 细 心 的 读者 可 能 已 经 注意 到 了 ，3.4.2 小 市 中 所 介 
绍 的 前 同 传 播 算法 实现 的 就 是 一 个 线性 模型 。 在 3.4.2 小 节 中 ， 前 同 传播 
的 计算 公式 为 : 
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二 GxWHW™ 
根据 矩阵 乘法 的 结合 律 有 : 


而 WW ”其 实 可 以 被 表示 为 一 个 新 的 参数 W': 
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这 样 输入 和 输出 的 关系 就 可 以 表示 为 


ri 
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二 1 ] rp rf 
y 二 7 玫 [a 1 | Jr | 十 Wx, | 


其 中 了 对 ”” 是 新 的 参数 。 这 个 前 向 传播 的 算法 完全 符合 线性 模型 的 定 


义 。 从 这 个 例子 可 以 看 到 ， 虽 然 这 个 神经 网 络 有 两 层 〈 不 算 输入 层 ) ， 
但 是 它 和 单 层 的 神经 网 络 并 没有 区 别 。 以 此 类 推 ， 只 通过 线性 变换 ， 任 
意 层 的 全 连接 神经 网 络 和 单 层 神 经 网 络 模 型 的 表达 能 力 没有 任何 区 别 ， 
而 且 它 们 部 是 线性 模型 。 然 而 线性 模型 能 够 解决 的 问题 是 有 限 的 。 这 束 
古 线 性 模型 最 大 的 局 限 性 ， 也 是 为 什么 深度 学 习 要 强调 非 线 性 。 在 下 面 
a 0 00 
型 的 局 限 性 。 











还 是 以 判断 零件 是 否 合格 为 例 ， 输 入 为 x, 和 x, ， 其 中 x ,代表 一 个 零件 质 
量 和 平均 质量 的 差 ， x , 代表 一 个 零件 长 度 和 平均 长 度 的 差 。 假 设 一 个 零 
件 的 质量 及 长 度 离 平均 质量 及 长 度 越 近 ， 那 么 这 个 零件 越 有 可 能 合格 。 
于 是 训练 数据 很 有 可 能 服从 图 4-1 所 示 的 分 布 。 
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图 4-1 零件 合格 问题 数据 分 布 示意 图 
图 4-1 上 黑色 的 点 代表 合格 的 零件 ， 而 灰色 的 点 代表 不 合格 的 零件 。 可 


色 点 都 在 原点 (0.0) 的 附近 ， 而 代表 不 合格 零件 的 灰 点 都 在 离 原 点 相对 远 
的 地 方 。 这 样 的 分 布 比较 接近 真实 问题 ， 因 为 大 部 分 真实 的 问题 都 存在 
大 致 的 趋势 ， 但 是 很 难 甚 至 无 法 完全 正确 地 区 分 不 同 的 类 别 。 图 4-2 旺 
示 了 使 用 TensorFlow 游 乐 场 训练 线性 模型 解决 这 个 问题 的 效果 。 
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图 4-2 ”使 用 线性 模型 解决 线性 不 可 分 问题 的 效果 


图 4-2 使 用 的 模型 有 一 个 隐藏 层 ， 并 且 在 顶部 激活 函数 竺 〈Activation ) 那 
一 栏 中 选择 了 线性 〈Linear) ， 这 和 3.4.1 小 节 中 介绍 的 神经 网 络 结构 是 

基本 一 致 的 。 通 过 TensorFlow 洲 乐 场 对 这 个 模型 训练 100 轮 之 后 ， 在 最 

右边 那 一 栏 可 以 看 到 训练 的 结果 。 从 图 4-2 上 可 以 看 出 ， 这 个 模型 并 不 

能 很 好 的 区 分 灰色 的 点 和 黑色 的 点 。 虽 然 整个 平面 的 颜色 都 比较 浅 ， 但 
是 中 间 还 是 隐约 有 一 条 分 界线 ， 这 说 明 这 个 模型 只 能 通过 直线 来 划分 平 
面 。 如 果 一 个 问题 可 以 通过 一 条 直线 来 划分 ， 那 么 线性 模型 也 是 可 以 用 
来 解决 这 个 问题 的 。 图 4-3 显 示 了 一 个 可 以 通过 直线 划分 的 数据 。 
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图 4-3 ”使 用 线性 模型 解决 线性 可 分 问题 的 效果 





从 图 4-3 中 可 以 看 出 ， 在 线性 可 分 问题 中 ， 线 性 模型 就 能 很 好 区 分 不 同 
颜色 的 点 。 因 为 线性 模型 就 能 解决 线性 可 分 问题 ， 所 以 在 深度 学 习 的 定 
义 中 特意 强调 它 的 目的 为 解决 更 加 复杂 的 问题 。 所 谓 复杂 问题 ， 人 至少 是 
无 法 通过 直线 〈 或 者 高 维 空间 的 平面 ) 划分 的 。 在 现实 世界 中 ， 绝 大 部 
分 的 问题 都 是 无 法 线性 分 割 的 。 回 到 判断 零件 是 否 合 格 的 问题 ， 如 果 将 
激活 函数 换 成 非 线 性 的 ， 那 么 可 以 得 到 如 图 4-4 所 示 的 结果 。 在 这 个 样 
例 中 使 用 了 ReLU 激 活 函 数 。 使 用 其 他 非 线性 激活 函数 也 可 以 得 到 类 似 
的 效果 。 从 图 4-4 中 可 以 看 出 ， 当 加 入 非 线 性 的 元 系 之 后 ， 神 经 网 络 模 
型 束 可 以 很 好 地 区 分 不 同 颜 色 的 皮 了 。 
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图 4-4 ”使 用 非 线 性 模型 解决 线性 不 可 分 问题 的 效果 


4.1.2 激活 函数 实现 去 线性 化 


4.1.1 小 节 已 经 提 到 过 激活 函数 ， 并 在 样 例 中 看 到 了 它 “ 神 奇 " 的 作用 。 在 
这 一 个 小 节 中 ， 将 详细 介绍 激活 函数 是 如 何 工作 的 。 在 3.4.2 小 节 中 介绍 
的 神经 元 结构 的 输出 为 所 有 输入 的 加 权 和 ， 这 导致 整个 神经 网 络 是 一 个 
线性 模型 。 如 果 将 每 一 个 神经 元 〈 也 就 是 神经 网 络 中 的 节点 ) 的 输出 通 
过 一 个 非 线 性 函数 ， 那 么 整个 神经 网 络 的 模型 也 就 不 再 是 线性 的 了 。 这 
0 
J 俐 经 元 结构 。 
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图 4-5 ”加 入 偏 置 项 和 激活 函数 的 神经 元 结构 示意 图 


下 面 的 公式 给 出 了 3.4.2 小 节 中 神经 网 络 结构 加 上 激活 函数 和 偏 置 项 后 的 
前 问 传 播 算法 的 数学 定义 : 


Ty (1) 7 (1) 7 (1) 
Wo Ws rs 


A =[an.av,a3]= fm +D)= | |m b, D3]) 


we wa 7 
=f (Wm + Wx +h. WoOm + x +Db2, Wx + WYx, +b3]) 
=[f OPO + WA + Dh), OP + WY x +b2), fT x + WEY +b3)] 
相 比 3.4.2 小 节 中 的 定义 ， 上 面 的 定义 主要 有 两 个 改变 。 第 一 个 改变 是 新 
的 公式 中 增加 了 偏 置 项 (bias，， 偏 置 项 是 神经 网 络 中 非常 常用 的 一 种 
结构 。 第 二 个 改变 束 是 每 个 节点 的 取 值 不 再 是 单纯 的 加 权 和 。 每 个 节点 
的 输出 在 加 权 和 的 基础 上 还 做 了 一 个 非 线性 变换 。 图 4-6 显 示 了 几 种 和 
用 的 非 线 性 激活 函数 的 函数 图 像 。 
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ReLU 函 数 ， sigmoid 函 数 ， tanh 函 数 : 


f (x) = max(x, 0) f(x) = Ts f (x) = 了 和 
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图 4-6 ”常用 的 神经 网 络 激 活 函数 的 函数 图 像 


从 图 4-6 中 可 以 看 出 ， 这 些 激活 函数 的 函数 图 像 都 不 是 一 条 直线 。 所 以 
通过 这 些 激活 函数 ， 每 一 个 节点 不 再 是 线性 变换 ， 于 是 整个 神经 网 络 模 
型 也 就 不 再 是 线性 的 了 。 图 4-7 给 出 了 加 入 偏 置 项 和 ReLU 激 活 函 数 之 

后 ，3.4.2 小 节 中 神经 网 络 的 结构 。 

从 图 4-7 中 可 以 看 出 ， 偏 置 项 可 以 被 表达 为 一 个 输出 永远 为 1 的 节点 。 下 
面 的 公式 给 出 了 这 个 新 的 神经 网 络 模 型 前 向 传播 算法 的 计算 方法 。 


隐藏 层 推导 公式 : 
ai= fT + +b )=f(0.7x0.2+0.9x0.3+(-0.5))= f(-0.09)=0 
aa = fVON+WYx +6b)= f(0.7x0.1+0.9x(-0.5)+0.1)= f(-0.28)=0 
aa = f(x + +by )= f(0.7x0.4+0.9x0.2+(-0.1) = f(0.36) = 0.36 
输出 层 推 导 公 式 : 


和 FT EW a tb ) = f(0.09x0.6+0.28x0.1+0.36x(-0.2)+0.)) 
= f(0.054+0.028+(-0.072)+0.D)= f(0.11)=0.11 








图 4-7 加 入 偏 置 项 和 激活 函数 的 神经 网 络 结构 图 


目前 TensorFlow 提 供 了 7 种 不 同 的 非 线 性 激活 函数 ，tf.nn.relu、tf.sigmoid 
和 tf.tanh 是 其 中 比较 常用 的 几 个 。 当 然 ，TensorFlow 也 支持 使 用 自己 定 
义 的 激活 函数 。 以 下 代码 展示 了 如 何 通 过 TensorFlow 实 现 图 4-7 中 神经 网 
络 的 前 向 传播 算法 。 








a = tf.nn.relu(tf.matmul(x, wi) + biases1) 


y = tf.nn.relu(tf.matmul(a, w2) + biases2) 


从 上 面 的 代码 可 以 看 出 ，TensorFlow 可 以 很 好 地 支持 使 用 了 激活 函数 和 
偏 置 项 的 神经 网 络 。 


4.1.3 ”多 层 网 络 解决 弄 或 运算 


上 面 的 两 个 小 节 详 细 讲 解 了 线性 变换 的 问题 。 在 这 一 小 市 中 ， 将 通过 一 
个 实际 问题 来 讲解 深度 学 习 的 另外 一 个 重要 性 质 多 层 变 换 。 在 神经 
网 络 的 发 展 史 上 ， 一 个 很 重要 的 问题 就 是 异 或 问题 。 神 经 网 络 的 理论 模 
型 由 Warren McCulloch 和 Walter Pitts 在 1943 年 首次 提出 ， 并 在 1958 年 由 
Frank Rosenblatt 提 出 了 感知 机 (perceptron) 模型 ， 从 数学 上 完成 了 对 神 
经 网 络 的 精确 建 模 。 感 知 机 可 以 简单 地 理解 为 单 层 的 神经 网 络 ， 图 4-5 
中 给 出 的 神经 元 结构 就 是 感知 机 的 网 络 结构 。 


感知 机 会 先 将 输入 进行 加 权 和 ， 然 后 再 通过 4.1.2 小 市 中 介绍 的 激活 函数 
最 后 得 到 输出 。 这 个 结构 就 是 一 个 没有 隐藏 层 的 神经 网 络 。 在 上 个 世纪 
60 年 代 ， 神 经 网 络 作 为 对 人 类 大 脑 的 模拟 算法 受到 了 很 多 关注 。 然 而 到 
了 1969 年 ，Marvin Minsky 和 Seymour ”Papert 在 Perceptrons: An 
Introduction to Computational Geometry 一 书 中 提出 感知 机 是 无 法 模拟 异 
或 运算 的 号。 这 里 略 去 复杂 的 数学 求证 过 程 ， 而 是 通过 TensorFlow 游 乐 
场 来 模拟 一 下 通过 感知 机 的 网 络 结构 来 模拟 异 或 运算 。 图 4-8 显 示 了 通 
过 TensorFlow 游 乐 场 训 练 500 轮 之 后 的 情况 。 
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图 4-8 ”使 用 单 层 神 经 网 络 解决 异 或 问题 的 效果 图 


图 4-8 使 用 了 一 个 能 够 模拟 寞 或 运算 的 数据 集 。 异 或 运算 直观 来 说 就 是 
如 果 两 个 输入 的 符号 相同 时 同时 为 正 或 者 同时 为 负 )〉 则 输出 为 0， 否 
则 《一 个 正 一 个 负 ) 输出 为 1。 从 图 4-8 中 可 以 看 出 ， 左 下 角 【〈 两 个 输入 
同时 为 负 ) 和 右上 角 “【 两 个 输入 同时 为 正 ) 的 点 为 黑色 ， 而 另外 两 个 象 











限 的 点 为 灰色 ， 这 就 符合 异 或 运算 的 计算 规则 。 图 4-8 中 将 隐藏 层 的 层 
数 设置 为 0， 这 样 就 模拟 了 感知 机 的 模型 。 通 过 500 轮 训练 之 后 ， 可 以 看 
到 这 个 感知 机 模型 并 不 能 将 两 种 不 同 颜色 的 点 分 开 ， 也 就 是 说 感知 机 无 
法 模拟 腊 或 运算 的 功能 。 


当 加 入 隐藏 层 之 后 ， 寞 或 问题 就 可 以 得 到 很 好 地 解决 。 图 4-9 显 示 了 一 
个 有 4 个 市 把 的 隐藏 层 的 神经 网 络 在 训练 500 轮 之 后 的 效果 。 在 图 4-9 
中 ， 除 了 可 以 看 到 最 右边 的 输出 节点 可 以 很 好 地 区 分 不 同 颜 色 的 点 外 ， 
更 加 有 意思 的 是 ， 隐 藏 层 的 四 个 节点 中 ， 每 个 节点 都 有 一 个 角 是 黑色 
的 。 这 四 个 隐藏 市 点 可 以 被 认为 代表 了 从 输入 特征 中 抽取 的 更 高 维 的 特 
征 。 比 如 第 一 个 市 点 可 以 大 致 代表 两 个 输入 的 好 辑 与 操作 的 结果 ( 当 两 
个 输入 都 为 正 数 时 该 节点 输出 为 正 数 ) 。 从 这 个 例子 中 可 以 看 到 ， 深 层 
神经 网 络 实际 上 有 组 合 特征 提取 的 功能 。 这 个 特性 对 于 解决 不 易 提 取 特 
征 回 量 的 问题 《比如 图 片 识 别 、 语 音 识别 等 ) 有 很 大 帮助 。 这 也 是 深度 
学 习 在 这 些 问题 上 更 加 容易 取得 突破 性 进展 的 原因 。 
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图 4-9 ”使 用 深层 神经 网 络 解决 异 或 问题 





4.2 ”损失 孙 数 定义 


4.1 市 介绍 了 深度 学 习 的 一 些 性 质 ， 并 且 通 过 这 些 性 质 讲解 了 如 何 构 造 
一 个 更 加 有 效 的 神经 网 络 。 本 菠 将 具体 介绍 如 何 刻 画 不 同 神经 网 络 模型 
的 效果 。 神 经 网 络 模型 的 效果 以 及 优化 的 目标 是 通过 损失 函数 (loss 

function) 来 定义 的 。 在 4.2.1 小 节 中 ， 将 讲解 适用 于 分 类 问题 和 回归 问题 





的 经 典 损失 函数 ， 并 通过 TensorFlow 实 现 这 些 损 失 函 数 。 然 后 在 4.2.2 小 
节 中 ， 将 介绍 如 何 根据 具体 问题 定义 损失 函数 ， 并 通过 具体 样 例 来 说 明 
不 同 损失 函数 对 训练 结果 的 影响 。 


4.2.1 经 典 损失 函数 


分 类 问题 和 回归 问题 是 监督 学 习 的 两 大 种 类 。 这 一 小 市 将 分 别 介绍 分 类 
问题 和 回归 问题 中 使 用 到 的 经 典 损失 函数 。 分 类 问题 希望 解决 的 是 将 不 
同 的 样本 分 到 事先 定义 好 的 类 别 中 。 比 如 在 第 3 章 中 介绍 的 判断 一 个 零 
件 是 否 合格 的 问题 融 是 一 个 二 分 类 问题 。 在 这 个 问题 中 ， 需 要 将 样本 
〈 也 束 是 零件 ) 分 到 合格 或 是 不 合格 两 个 类 别 中 。 在 4.3 市 中 将 要 介绍 
的 手写 体 数 字 识 别 问 题 可 以 被 归纳 成 一 个 十 分 类 问题 。 手 写 体 数字 识别 
问题 可 以 被 看 成 将 一 张 包 含 了 数字 的 图 片 分 类 到 0~9 这 10 个 数字 中 。 


在 解决 判断 零件 是 否 合格 的 二 分 类 问题 时 ， 在 第 3 章 中 定义 过 一 个 有 单 
个 输出 节点 的 神经 网 络 。 当 这 个 节点 的 输出 越 接近 0 时 ， 这 个 样本 越 有 
可 能 是 不 合格 的 ， 反 之 如 果 输 出 越 接近 1， 则 这 个 样本 越 有 可 能 是 合格 
的 。 为 了 给 出 具体 的 分 类 结果 ， 可 以 取 0.5 作 为 冰 值 。 凡 是 输出 大 于 0.5 
的 样本 都 认为 是 合格 的 ， 小 于 0.5 的 则 是 不 合格 的 。 然 而 这 样 的 做 法 并 
不 容易 直接 推广 到 多 分 类 的 问题 。 虽 然 设 置 多 个 阔 值 在 理论 上 是 可 能 
的 ， 但 在 解决 实际 问题 的 过 程 中 一 般 不 会 这 么 处 理 。 


通过 神经 网 络 解决 多 分 类 问题 最 常用 的 方法 是 设置 n 个 输出 节点 ， 其 中 
n ”为 类 别 的 个 数 。 对 于 每 一 个 样 例 ， 神 经 网 络 可 以 得 到 的 一 个 n 维 数组 
作为 输出 结果 。 数 组 中 的 每 一 个 维度 〈 也 就 是 每 一 个 输出 节点 ) 对 应 一 
个 类 别 。 在 理想 情况 下 ， 如 果 一 个 样本 属于 类 别 k， 那 么 这 个 类 别 所 对 
应 的 输出 节点 的 输出 值 应 该 为 1， 而 其 他 节点 的 输出 都 为 0。 以 识别 数字 
1 为 例 ， 神 经 网 络 模型 的 输出 结果 越 接近 [0,1,0,0,0,0,0,0,0,0] 越 好 。 那 么 
如 何 判 断 一 个 输出 向 量 和 期 望 的 向 量 有 多 接近 呢 ?” 交 叉 炉 (cross 
entropy〉 是 常用 的 评判 方法 之 一 。 交 叉 焕 刻画 了 两 个 概率 分 布 之 间 的 距 
离 ， 它 是 分 类 问题 中 使 用 比较 广 的 一 种 损失 函数 。 


区 义 燃 是 一 个 信息 论 中 的 概念 ， 它 原本 是 用 来 估算 平均 编码 长 度 的。 在 
本 书 中 不 过 多 讨论 它 原本 的 意义 ， 而 会 通过 它 的 公式 以 及 具体 的 样 例 来 
讲解 它 对 于 评估 分 类 效果 的 意义 。 给 定 两 个 概率 分 布 p 和 q ， 通 过 q 来 
表示 p 的 交 义 燃 为 : 






































H(p.q)= -2 p(x)log q(x) 


注意 交 义 糯 刻 画 的 是 两 个 概率 分 布 之 间 的 距离 ， 然 而 神经 网 络 的 输出 却 
不 一 定 是 一 个 概率 分 布 。 概 率 分 布 刻画 了 不 同事 件 发 生 的 概率 。 当 事件 


总 数 是 有 限 的 情况 下 ， 报 率 分 布 函数 ( = | 满足 : 
vx p(X=x)el0 EY p(X=Y)=] 


也 就 是 说 ， 任 意 事件 发 生 的 概率 都 在 0 和 1 之 则 ， 且 总 有 菏 一 个 事件 友 生 
(概率 的 和 为 1) 。 如 果 将 分 类 问题 中 “一 个 样 例 属于 某 一 个 类 别 * 看 成 
一 个 概率 事件 ， 那 么 训练 数据 的 正确 答案 就 符合 一 个 概率 分 布 。 因 为 事 
件 “ 一 个 样 例 属于 不 正确 的 类 别 ? 的 概率 为 0， 而 “一 个 样 例 属于 正确 的 类 
别 ” 的 概率 为 1。 如 何 将 神经 网 络 前 同 传 播 得 到 的 结果 也 变 成 概率 分 布 
呢 ?Softmax 回 归 就 是 一 个 非常 常用 的 方法 。 


Softmax 回 归 本 喘 可 以 作为 一 个 学 习 算 法 来 优化 分 类 结果 ， 但 在 
TensorFlow 中 ，Softmax 回 归 的 参数 被 去 挥 了 ， 它 只 是 一 层 额 外 的 处 理 
层 ， 将 神经 网 络 的 输出 变 成 一 个 概率 分 布 。 图 4-10 展 示 了 加 上 了 
Softmax 回 归 的 神经 网 络 结构 图 。 


























输入 层 隐藏 层 原始 输出 层 。 ”softmax 层 。 ”最 终 输 出 层 
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图 4-10 ”通过 Softmax 层 将 神经 网 络 输 出 变 成 一 个 概率 分 布 


假设 原始 的 神经 网 络 输出 为 y, ，y , ，...，y, ， 那 么 经 过 Softmax 回 归 处 
理 之 后 的 输出 为 : 
i 


/ e 
sofimax( y)i = yi = 


i 
7=! 


从 以 上 公式 中 可 以 看 出 ， 原 始 神经 网 络 的 输出 被 用 作 置 信 度 来 生成 新 的 
输出 ， 而 新 的 输出 满足 概率 分 布 的 所 有 要 求 。 这 个 新 的 输出 可 以 理解 为 
经 过 神经 网 络 的 推导 ， 一 个 样 例 为 不 同类 别 的 概率 分 别 是 多 大 。 这 样 束 
把 神经 网 络 的 输出 也 变 成 了 一 个 概率 分 布 ， 从 而 可 以 通过 交叉 糯 来 计算 
预测 的 概率 分 布 和 真实 答案 的 概率 分 布 之 间 的 距离 了 。 


从 交叉 炳 的 公式 中 可 以 看 到 交叉 炳 函数 不 是 对 称 的 


( 万 (p,q) 关 太 (G, 万) )》， 它 刘 硬 的 是 通过 概率 











分 布 d ”来 表达 概率 分 布 p“” 的 困难 程度 。 因 为 正确 答案 是 希望 得 到 的 结 
果 ， 所 以 当 交 叉 烂 作为 神经 网 络 的 损失 函数 时 ，p 代表 的 是 正确 答 
宁 ，q 代表 的 是 预测 值 。 交 叉 燃 刻画 的 古 两 个 概率 分 布 的 距离 ， 也 束 是 
说 交叉 燃 值 越 小 ， 两 个 概率 分 布 越 接近 。 下 面 将 给 出 两 个 具体 样 例 来 直 
观 地 说 明 通 过 交 文 糯 可 以 判断 预测 答案 和 真实 答案 之 间 的 距离 。 假 设 有 
一 个 三 分 类 问题 ， 某 个 样 例 的 正确 答案 是 〈1,0,0) 。 某 模型 经 过 








Softmax 回 归 之 后 的 预测 答案 是 〈0.5,0.4,0.1) ， 那 么 这 个 预测 和 正确 答 
案 之 间 的 交 义 炳 为 : 
H(G,0.0)(05,04,0.))=-(Ixlog0.5+0xlog04+0xlog0.D) 03 
如 果 另 外 一 个 模型 的 预测 是 (0.8,0.1,0.1)， 那 么 这 个 预测 值 和 真实 值 之 间 
的 交叉 炳 是 : 


H((,0,0),(0.8,0.1.0.))=-(Ixlog0.8+ 0xlog0.1+ 0xlog0.D) x0. 


从 直观 上 可 以 很 容易 地 知道 第 二 个 预测 答案 要 优 于 第 一 个 。 通 过 交叉 炉 
计算 得 到 的 结果 也 是 一 致 的 〈 第 二 个 交叉 箭 的 值 更 小 ) 。 在 3.4.5 小 节 
中 ， 己 经 通过 TensorFlow 实 现 过 交叉 炉 ， 其 代码 实现 如 下 : 





cross_entropy = -tf.reduce mean( 


y_ * tf.log(tf.clip by_value(y, 1e-10, 1.0))) 


其 中 y_ 代 表 正 确 结果 ，y 代 表 预 测 结 果 。 本 小 节 将 更 加 有 具体 的 讲解 这 个 
计算 过 程 。 这 一 行 代码 包含 了 四 个 不 同 的 TensorFlow 运 算 。 通 过 
tf.clip_by_value 函 数 可 以 将 一 个 张 量 中 的 数值 限制 在 一 个 范围 之 内 ， 这 
样 可 以 避免 一 些 运 算 错 误 《〈 比 如 1og 0 是 无 效 的 ) 。 下 面 给 出 了 使 用 
tf.clip_by_value 的 简单 样 例 。 


v = tf.constant([[1.0, 2.0, 3.0],[4.0,5.0,6.0]]) 


print tf.clip by_value(v, 2.5, 4.5).eval() 


# 输出 [[ 2.5 2.5 3.][ 4. 4.5 4.5]] 


在 上 面 的 样 例 中 可 以 看 到 ， 小 于 2.5 的 数 都 被 换 成 了 2.5， 而 大 于 4.5 的 数 
都 被 换 成 了 4.5。 这 样 通 过 tf.clip_by_value 函 数 就 可 以 保证 在 进行 log” 运 
算 时 ， 不 会 出 现 1og 0 这 样 的 错误 或 者 大 于 1 的 概率 。 第 二 个 运算 是 tf.log 
函数 ， 这 个 函数 完成 了 对 张 量 中 所 有 元 素 依 次 求 对 数 的 功能 。 以 下 代码 
中 给 出 一 个 简单 的 样 例 。 





v = tf.constant([1.0, 2.0, 3.0]) 
print tf.log(v).eval() 


# 输出 [ 0. 0.69314718 1.09861231] 





第 三 个 运算 是 乘法 ， 在 实现 交叉 炉 的 代码 中 直接 将 两 个 矩阵 通过 “*” 操 
作 相 乘 。 这 个 操作 不 是 窍 阵 乘法 ， 而 是 元 系 之 间 直 接 相 溢 。 和 矩阵 乘法 需 
要 使 用 tt.matmu 函 数 来 完成 。 下 面 给 出 了 这 两 个 操作 的 区 别 : 





v1i = tf.constant([[1.0, 2.0], [3.0, 4.0]]) 


v2 = tf.constant([[5.0, 6.0], [7.0, 8.0]]) 


print (vi * v2).eval() 
半 贡 曲 [| 5 多 .| 汪 ， &@2.]] 
print tf.matmul(vi, v2).eval() 


# 输出 [[ 19. 22.] [ 43. 50.]] 


v1*v2 的 结果 是 每 个 位 置 上 对 应 元 素 的 乘积 。 比 如 (1,1〉 这 个 元 素 的 值 


A 人 EE: 


Vi 1 .1| X val 1 1x 二 
《12) 这 个 元 素 的 值 是 : 
v1|l. 中 x v2|l, | = whocl2 


以 此 类 推 。 而 tf.matmul 函 数 完成 的 是 矩阵 乘法 运算 ， 所 以 《1,1〉 这 个 元 
素 的 值 是 : 


VL,1|xval,l|+vll,2|xv2l2,1|=1x$+2x7=19 


通过 上 面 这 三 个 运算 完成 了 对 于 每 一 个 样 例 中 的 每 一 个 类 别 交叉 炳 
p(X) Og (XE)】 的 计生 这 三 步 计算 得 到 的 结果 是 一 个 
nxm 的 二 维 逢 降 ， 其 中 a 为 一 个 batch 中 样 例 的 数量 ，m 为 分 类 的 类 别 数 
量 。 根 据 交 又 箭 的 公式 ， 应 该 将 每 行 中 的 m 个 结果 相 加 得 到 所 有 样 例 的 
交叉 箭 ， 然 后 再 对 这 n 行 取 平 均 得 到 一 个 batch 的 平均 交叉 粮 。 但 因为 分 
类 问题 的 类 别 数量 是 不 变 的 ， 所 以 可 以 直接 对 整个 矩阵 做 平均 而 并 不 改 
变 计算 结果 的 意义 。 这 样 的 方式 可 以 使 整个 程序 更 加 简洁 。 以 下 代码 简 
单 展 示 了 tf.reduce_mean 函 数 的 使 用 方法 。 








v = tf.constant([[1.0, 2.0, 3.0],[4.0,5.0,6.0]]) 


print tf.reduce mean(v).eval() 
出 3.5 


因为 交 义 燃 一 般 会 与 softmax 回 归 一 起 使 用 ， 所 以 TensorFlow 对 这 两 个 功 
能 进行 了 统一 封装 ， 并 提供 了 tf.nn.softmax_cross_entropy_with_logits 也 | 
数 。 比 如 可 以 直接 通过 下 面 的 代码 来 实现 使 用 了 softmax 回 归 之 后 的 交 
叉 烂 损失 函数 : 


cross_entropy = tf.nn.softmax_cross_ entropy with logits(y, y_ 


其 中 y 代 表 了 原始 神经 网 络 的 输出 结果 ， 而 y_ 给 出 了 标准 答案 。 这 样 通 
过 一 个 命令 就 可 以 得 到 使 用 了 Softmax 回 归 之 后 的 交叉 箭 。 在 只 有 一 个 
正确 答案 的 分 类 问题 中 ，TensorFlow 提 供 了 
tf.nn.Sparse_softmax_cross_entropy_with_logits 函 数 来 进一步 加 速 计算 过 
程 。 在 第 5 章 中 将 提供 使 用 这 个 函数 的 完整 样 例 。 

与 分 类 问题 不 同 ， 回 归 问 题解 决 的 是 对 有 具体 数值 的 预测 。 比 如 房价 预 
测 、 销 量 预测 每 都 是 回归 问题 。 这 些 问 题 需要 预测 的 不 是 一 个 事先 定义 
好 的 类 别 ， 而 是 一 个 任意 实数 。 解 决 回归 问题 的 神经 网 络 一 般 只 有 一 个 
输出 节点 ， 这 个 节点 的 输出 值 束 是 预测 值 。 对 于 回归 问题 ， 最 常用 的 损 
失 函 数 是 均 方 误 到 (MSE，mean squared error) 鱼 。 它 的 定义 如 下 : 


MSE(y,y )= a 
Hl 


FE 
其 中 y ,为 一 个 batch 中 第 i 个 数据 的 正确 答案 ， 而 六 为 神经 网 络 给 出 的 
预测 值 。 以 下 代码 展示 了 如 何 通过 TensorFlow 实 规 均 方 误差 损失 函数 : 

















mse = tf.reduce mean(tf.square(y_  - y)) 


其 中 y 代 表 了 神经 网 络 的 输出 答案 ，y_ 代 表 了 标准 答案 。 类 似 4.2.1 小 市 
J 的 乘法 操作 ， 这 里 的 减法 运算 “-” 也 是 两 个 矩阵 中 对 应 元 素 的 减 
站; 


4.2.2” 目 定义 损失 函数 








TensorFlow 不 仅 文 持 经 典 的 损失 函数 ， 还 可 以 优化 任意 的 上 自 定 义 损失 函 
数 。 本 小 节 将 介绍 如 何 通 过 自 定义 损失 函数 的 方法 ， 使 得 神经 网 络 优 化 
i 0 
题 为 例 。 


在 预测 商品 销量 时 ， 如 果 预 测 多 了 “预测 值 比 真实 销量 大 ) ， 商 家 损失 
的 是 生产 商品 的 成 本 ， 而 如 果 预 测 少 了 《预测 值 比 真实 销量 小 ) ， 损 失 
的 则 是 商品 的 利润 。 因 为 一 般 商品 的 成 本 和 商品 的 利润 不 会 严格 相等 ， 
所 以 使 用 4.2.1 小 节 中 介绍 的 均 方 误差 损失 函数 就 不 能 够 很 好 地 最 大 化 销 
售 利润 。 比 如 如 果 一 个 商品 的 成 本 是 1 元 ， 但 是 利润 是 10 元 ， 那 么 少 预 
测 一 个 就 少 挣 10 元 ;而 多 预测 一 个 才 少 挣 1 元 。 如 果 神 经 网 络 模 型 最 小 
化 的 是 均 方 误 差 ， 那 么 很 有 可 能 此 模型 就 无 法 最 大 化 预期 的 利润 。 为 了 
最 大 化 预期 利润 ， 需 要 将 损失 函数 和 利润 直接 联系 起 来 。 注 意 损失 函数 
定义 的 是 损失 ， 所 以 要 将 利润 最 大 化 ， 定 义 的 损失 函数 应 该 刻画 成 本 或 
者 代价 。 下 面 的 公式 给 出 了 一 个 当 预 测 多 于 真实 值 和 预测 少 于 真实 值 时 
有 不 同 损失 系数 的 损失 函数 : 


Loss(y,y)= 2), f O57), fl%,))= 
| 


>、 ~ se i 人 业 p> f 、 
和 均 方 误 状 公 式 关 似 ， 习 为 一 个 patch 中 第 i 个 数据 的 正确 答案 ， 了 1 为 


神经 网 络 得 到 的 预测 值 ，a 和 b 是 常量 。 比 如 在 上 面 介 绍 的 销量 预测 问 
题 中 ，a 就 等 于 10〔 正 确 答案 多 于 预测 答案 的 代价 ) ， 而 b 等 于 1 (正确 
答案 少 于 预测 答案 的 代价 ) 。 通 过 对 这 个 自 定义 损失 函数 的 优化 ， 模 型 
提供 的 预测 值 更 有 可 能 最 大 化 收益 。 在 TensorFlow 中 ， 可 以 通过 以 下 代 
码 来 实现 这 个 损失 函数 。 








a(X—y) x>y 


1 


】 


y 











loss = tf.reduce sum(tf.select(tf.greater(vi, v2), 


(v1 - v2) * a, (v2 - v1) 


上 面 的 代码 用 到 了 tf.greater 和 tf.select 来 实现 选择 操作 。tf.greater 的 输入 


是 两 个 张 量 ， 此 函数 会 比较 这 两 个 输入 张 量 中 每 一 个 元 素 的 大 小 ， 并 返 
回 比较 结果 。 当 tt.greater 的 输入 张 量 维度 不 一 样 时 ，TensorFlow 会 进行 
基 似 NumPy 厂 播 操作 〈broadcasting) 的 处 理 2 。ttselect 函 数 有 三 个 参 
数 。 第 一 个 为 选择 条 件 根 据 ， 当 选择 条 件 为 True 时 ，tft.select 函 数 会 选择 
第 二 个 参数 中 的 值 ， 否 则 使 用 第 三 个 参数 中 的 值 。 注 意 tt.select 函 数 判 断 
和 达 择 部 是 在 天 素 级 别 进行 以 下 代码 展示 了 tt.select 函 数 和 tt.greater 函 








import tensorflow as tf 
v1i = tf.constant([1.0, 2.0, 3.0, 4.0]) 


v2 = tf.constant([4.0, 3.0, 2.0, 1.0]) 


sess = tf.InteractiveSession() 
print tf.greater(vi, v2).eval() 


# 输出 [False False True True] 


print tf.select(tf.greater(vi, v2), v1, v2).eval() 
妆 输 出 [4. 3. 3. 4.] 


sess.close() 


在 定义 了 损失 函数 之 后 ， 下 面 将 通过 一 个 简单 的 神经 网 络 程序 来 讲解 损 
失 函 数 对 模型 训练 结果 的 影响 。 在 下 和 面 这 个 程序 中 ， 实 现 了 一 个 拥有 两 
个 输入 节点 、 一 个 输出 节点 ， 没 有 隐藏 层 的 神经 网 络 。 这 个 程序 的 主体 
Ci 但 用 到 了 上 面 定 义 的 损失 函 


import tensorflow as tf 


from numpy.random import RandomState 


batch_ size = 8 


# 两 个 输入 节点 。 


x = tf.placeholder(tf.float32, shape=(None, 2), name='x- 
input") 


# 回归 问题 一 般 只 有 一 个 输出 节点 。 








y_ = tf.placeholder(tf.float32, shape=(None, 1), name='y- 
input") 





# 定义 了 一 个 单 层 的 神经 网 络 前 向 传播 的 过 程 ， 这 里 就 是 简单 加 权 和 。 
wi = tf.Variable(tf.random normal([2, 1], stddev=1, seed=1)) 


y = tf.matmul(x, w1) 


# 定义 预测 多 了 和 预测 少 了 的 成 本 。 

loss_less = 10 

loss more = 1 

loss = tf.reduce_ sum(tf.select(tf.greater(y, y_), 
(y - y_) * loss more, 
(y_ - y) * loss_less)) 


train_step = tf.,train.AdamOptimizer(0.001).minimize(loss) 


# 通过 随机 数 生成 一 个 模拟 数据 集 。 
rdm = RandomState(1) 


dataset _ size = 128 


X= rdm.rand(dataset_ size, 2) 


# 设置 回归 的 正确 值 为 两 个 输入 的 和 加 上 一 个 随机 量 。 之 所 以 要 加 上 一 个 随机 量 是 








# 加 入 不 可 预测 的 噪音 ， 和 否则 不 同 损失 函数 的 意义 就 不 大 了 ， 因 为 不 同 损失 函数 都 
已 





RA 完全 预测 正确 的 时 候 最 低 。 一 般 来 说 噪音 为 一 个 均值 为 6 的 小 量 ， 所 以 这 里 的 品 


# -0.05 ~ 0.05 的 随机 数 。 


Y= [[x1i + x2 + rdm.rand()/10.0-0.05] for (xi, x2) in Xx] 


# 训练 神经 网 络 。 
with tf.Session() as sess: 
init_op = tf.initialize all variables() 
sess.run(init_op) 
STEPS = 5000 
for i in range(STEPS ) : 
start = (i * batch_ size) % dataset_ size 
end = min(start+batch_ size, dataset_ size) 
sess.run(train_step, 


feed_dict= 
{x: Xx[start:end], y_: Ylstart:end]}) 


print sess.run(w1) 


运行 上 面 的 代码 会 得 到 w1 的 值 为 [1.01934695，1.04280889]， 也 就 是 说 得 
到 的 预测 函数 是 1.02x ,+1.04x ,， 这 要 比 x +X ,大 ， 因 为 在 损失 函数 中 指 
定 预测 少 了 的 损失 更 大 (loss_less>loss_more)。 如 果 将 loss_less 的 值 调整 
为 1，loss_more 的 值 调 整 为 10， 那 么 wl 的 值 将 会 是 [0.95525807， 


0.9813394]。 也 就 是 说 ， 在 这 样 的 设置 下 ， 模 型 会 更 加 偶 问 于 预测 少 一 
点 。 而 如 果 使 用 均 方 误差 作为 损失 函数 ， 那 么 w ”， 会 是 [0.97437561， 
1.0243336]。 使 用 这 个 损失 函数 会 尽量 让 预测 值 离 标准 答案 更 近 。 通 过 
这 个 样 例 可 以 感受 到 ， 对 于 相同 的 神经 网 络 ， 不 同 的 损失 函数 会 对 训练 
得 到 的 模型 产生 重要 影响 。 


4.3 神经 网 络 优化 算法 


本 市 将 更 加 具体 地 介绍 如 何 通 过 反 疝 传播 算法 (backpropagation〉 和 梯 
度 下 降 算法 (gradient decent) 调整 神经 网 络 中 参数 的 取 值 。 梯 度 下 降 算 
法 主要 用 于 优化 单个 参数 的 取 值 ， 而 反 回 传播 算法 给 出 了 一 个 高 效 的 方 
式 在 所 有 参数 上 使 用 梯度 下 降 算法 ， 从 而 使 神经 网 络 模型 在 训练 数据 上 
的 损失 函数 尽 可 能 小 。 反 辐 传 播 算法 是 训练 神经 网 络 的 核心 算法 ， 它 可 
以 根据 定义 好 的 损失 函数 优化 神经 网 络 中 参数 的 取 值 ， 从 而 使 神经 网 络 
模型 在 训练 数据 集 上 的 损失 函数 达到 一 个 较 小 值 。 神 经 网 络 模型 中 参数 
的 优化 过 程 直 接 决 定 了 模型 的 质量 ， 是 使 用 神经 网 络 时 非常 重要 的 一 

步 。 在 本 节 中 ， 将 主要 介绍 神经 网 络 优化 过 程 的 基本 概念 和 主要 思想 ， 

而 略 去 算法 的 数学 推导 和 证 明 8-。 本 市 将 给 出 一 个 具体 的 样 例 来 解释 使 
用 梯度 下 降 算法 优化 参数 取 值 的 过 程 。 在 下 面 的 4.4 节 中 ， 将 继续 介绍 

的 神经 网 络 优 化 过 程 中 可 能 遇 到 的 问题 和 解决 方法 ， 擎 握 本 他 内 容 可 以 
帮助 更 好 地 理解 这 些 优 化 方法 。 


假设 用 6 表示 神经 网 络 中 的 参数 ，J(0) 表示 在 给 定 的 参数 取 值 下， 训练 
数据 集 上 损失 函数 的 大 小 ， 那 么 整个 优化 过 程 可 以 抽象 为 寻找 一 个 参数 
9 ， 使 得 J(6) 最 小 。 因 为 目前 没有 一 个 通用 的 方法 可 以 对 任意 损失 函数 
直接 求解 最 佳 的 参数 取 值 ， 所 以 在 实践 中 ， 梯 度 下 降 算 法 是 最 常用 的 神 
经 网 络 优化 方法 。 梯 度 下 降 算法 会 达 代 式 更 新 参数 9 ， 不 断 沿 着 梯度 的 
I 
J 原理 。 
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图 4-11 ”梯度 下 降 算法 思想 示意 图 


图 4-11 中 x 轴 表 示 参 数 9 的 取 值 ，y 轴 表示 损失 函数 J(0) 的 值 。 图 4-11 的 
曲线 表示 了 在 参数 9 取 不 同 值 时 ， 对 应 损失 函数 J(6) 的 大 小 。 假 设 当 前 
的 参数 和 损失 值 对 应 图 4-11 中 小 圆 点 的 位 置 ， 那 么 梯度 下 降 算 法 会 将 参 
数 回 x 轴 左 侧 移动 ， 从 而 使 得 小 圆 点 参 着 箭头 的 方 生 移动。 参数 的 梯度 











可 以 通过 求 偏 导 的 方式 计算 , 对 于 参数 9 ， 其 榜 度 为 ( 加) . 
有 了 梯度 ， 还 需要 定义 一 个 学 习 率 了 2 (learning rate) 来 定义 每 次 参 


数 更 新 的 幅度 。 从 直观 上 理解 ， 可 以 认为 学 习 率 定义 的 就 是 每 次 参数 移 
动 的 幅度 。 通 过 参数 的 梯度 和 学 习 率 ， 参 数 更 新 的 公式 为 : 


0 , 
导 。 于 eA = pi 0,) 
+1 | 36, 


下 面 给 出 了 一 个 具体 的 例子 来 说 明 梯 度 下 降 算 法 是 如 何 工 作 的 。 假 设 要 
通过 标 度 下 降 算法 来 优化 参数 x ， 使 得 损失 函数 J (x) =x * 的 值 尽量 
小 。 梯 度 下 降 算法 的 第 一 步 需要 随机 产生 一 个 参数 x 的 初始 值 ， 然 后 再 


通过 梯度 和 学 习 率 来 更 新 参数 x 的 取 值 。 在 这 个 样 例 中 ， 参 数 x 的 梯度 为 
OJ (xX) 
VY 二 一 二 7》Y ， 那么 使 用 梯度 下 降 算 法 每 次 对 参数 x 的 
Ox 
更 新 公式 为 弟 一半 一 人 WY 。 假设 参数 的 初始 值 为 5， 学 
习 率 为 0.3， 那 么 这 个 优化 过 程 可 以 总 结 为 表 4-1。 


一 








表 4-1 使 用 梯度 下 降 算法 优化 函数 , 矿 (x) ri 


轮 数 当前 轮 参 数 梯度 x 学 习 率 更 新 后 参数 值 
值 

I 5 2x5x0.3=3 5-3=2 

2 2 2x2x0.3=1.2 2-1.2=0.8 

0.8 2x0.8x0.3=0.48 0.8-0.48=0.32 

4 0.32 2x0.32x0.3=0.192 0.32- 

0.192=0.128 
5 0.128 2x0.128x0.3=0.0768 0.128- 


0.0768=0.0512 


从 表 4-1 中 可 以 看 出 ， 经 过 5 次 旬 代 之 后 ， 参 数 x ”的 值 变 成 了 0.0512， 这 
个 和 参数 最 优 值 0 已 经 比较 接近 了 。 虽 然 这 里 给 出 的 是 一 个 非常 简单 的 

样 例 ， 但 是 神经 网 络 的 优化 过 程 也 是 可 以 类 推 的 。 神 经 网 络 的 优化 过 程 
可 以 分 为 两 个 阶段 ， 第 一 个 阶段 先 通过 前 向 传播 算法 计算 得 到 预测 值 ， 

并 将 预测 值 和 真实 值 做 对 比 得 出 两 者 之 间 的 差距 。 然 后 在 第 二 个 阶段 通 
过 反 辐 传播 算法 计算 损失 函数 对 每 一 个 参数 的 梯度 ， 再 根据 梯度 和 学 习 
率 使 用 梯度 下 降 算法 更 新 每 一 个 参数 。 本 书 将 略 去 反 向 传播 算法 具体 的 





实现 方法 和 数学 证 明 ， 有 兴趣 的 读者 可 以 参考 David Rumelhart、 
Geoffrey Hinton 和 Ronald Williams 教 授 发 表 的 论文 Learning 


representations by back-propagating errors 鱼 。 


需要 注意 的 是 ， 梯 上 度 下 降 算 法 并 不 能 保证 被 优化 的 函数 达到 全 局 最 优 








解 。 如 图 4-12 所 示 ， 图 中 给 出 的 函数 就 有 可 能 只 能 得 到 局 部 最 优 解 而 不 
古 全 局 最 优 解 。 在 小 黑 扣 处， 损失 函数 的 偏 导 为 0， 于 是 参数 就 不 会 再 
进一步 更 新 。 在 这 个 样 例 中 ， 如 果 参 数 x 的 初始 值 落 在 右 侧 深 色 的 区 间 
中 ， 那 么 通过 梯度 下 降 得 到 的 结果 部 会 落 到 小 黑 点 代表 的 局 部 最 优 解 。 
只 有 当 x 的 初始 值 落 在 左 侧 浅 色 的 区 间 时 梯度 下 降 才 能 给 出 全 局 最 优 答 
案 。 由 此 可 见 在 训练 神经 网 络 时 ， 参 数 的 初始 值 会 很 大 程度 影响 最 后 得 
0 
局 最 优 解 。 
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图 4-12 ”梯度 下 降 算法 得 不 到 全 局 最 小 值 的 样 例 


除了 不 一 定 能 达到 全 局 最 优 外 ， 梯 度 下 降 算 法 的 另外 一 个 问题 就 是 计算 
时 间 太 长 。 因 为 要 在 全 部 训练 数据 上 最 小 化 损失 ， 所 以 损失 函数 J(0) 是 
在 所 有 训练 数据 上 的 损失 和 。 这 样 在 每 一 轮 迭 代 中 都 需要 计算 在 全 部 训 
练 数据 上 的 损失 函数 。 在 海量 训练 数据 下 ， 要 计算 所 有 训练 数据 的 损失 
函数 是 非常 消耗 时 间 的 。 为 了 加 速 训练 过 程 ， 可 以 使 用 随机 梯度 下 降 的 
算法 〈stochastic gradient descent) 。 这 个 算法 优化 的 不 是 在 全 部 训练 数 
据 上 的 损失 函数 ， 而 是 在 每 一 轮 达 代 中 ， 随 机 优化 某 一 条 训练 数据 上 的 
损失 函数 。 这 样 每 一 轮 参 数 更 新 的 速度 加 大 大 加 快 了 。 因 为 随机 梯度 下 
降 算 法 每 次 优化 的 只 是 某 一 条 数据 上 的 损失 函数 ， 所 以 它 的 问题 也 非常 
明显 : 在 某 一 条 数据 上 损失 函数 更 小 并 不 代表 在 全 部 数据 上 损失 函数 更 
0 
最 优 。 

















为 了 综合 梯度 下 降 算 法 和 随机 梯度 下 降 算法 的 优 缺 点 ， 在 实际 应 用 中 一 
般 采 用 这 两 个 算法 的 折 中 每 次 计算 一 小 部 分 训练 数据 的 损失 函数 。 
这 一 小 部 分 数据 被 称 之 为 一 个 batch。 通 过 和 矩阵 运算 ， 每 次 在 一 个 batch 
上 优化 神经 网 络 的 参数 并 不 会 比 单 个 数据 慢 太 多 。 另 一 方面 ， 每 次 使 用 
一 个 batch 可 以 大 大 减 小 收敛 所 需要 的 迭代 次 数 ， 同 时 可 以 使 收敛 到 的 结 
果 更 加 接近 梯度 下 降 的 效果 。 以 下 代码 给 出 了 在 TensorFlow 中 如 何 实现 
人 在 本 书 的 所 有 样 例 中 ， 神 经 网 络 的 训练 都 大 致 遭 
循 以 下 过 程 。 








batch size = n 


# 每 次 读 取 一 小 部 分 数据 作为 当前 的 训练 数据 来 执行 反 向 传播 算法 。 


X = tf.placeholder (tf.float32, shape= 
(batch_size, 2), name='x-input') 


y_ = tf.placeholder (tf.float32, shape= 
(batch_size, 1), name='y-input') 


# 定义 神经 网 络 结构 和 优化 算法 。 
OSS = 


train_step = tf.,train.AdamOptimizer(0.001).minimize(loss) 
# 训练 神经 网 络 。 


with tf.Session() as sess: 


# 参数 初始 化 。 


# 友 代 的 更 新 参数 。 


for i In range(STEPS ) : 


# 准备 batch_size 个 训练 数据 。 一 般 将 所 有 训练 数据 随机 打 乱 之 后 再 
选取 可 以 得 到 


# 更 好 的 优化 效果 。 
current X，cCcurrent_ Y = ..， 


Sess.run(train_step， feed dict= 
{xX: current _X，y_: current_Y}) 


4.4 神经 网 络 进一步 优化 


4.3 节 介绍 了 优化 神经 网 络 的 基本 算法 ， 本 节 将 继续 介绍 神经 网 络 优 化 
过 程 中 可 能 过 到 的 一 些 问题 ， 以 及 解决 这 些 问题 的 常用 方法 。4.4.1 小 节 
将 介绍 通过 指数 衰减 的 方法 设置 梯度 下 降 算 法 中 的 学 习 率 。 通 过 指数 误 
减 的 学 习 率 即 可 以 让 模型 在 训练 的 前 期 快速 接近 较 优 解 ， 又 可 以 保证 模 
型 在 训练 后 期 不 会 有 太 大 的 波动 ， 从 而 更 加 接近 局 部 最 优 。 然 后 4.4.2 小 
节 将 介绍 过 拟 合 问题 。 在 训练 复杂 神经 网 络 模型 时 ， 过 拟 合 是 一 个 非常 
常见 的 问题 。 这 一 小 节 将 有 具体 介绍 这 个 问题 的 影响 以 及 解决 这 个 问题 的 
主要 方法 。 最 后 4.4.3 小 节 将 介绍 滑动 平均 模型 。 清 动 平均 模型 会 将 每 一 
轮 友 代 得 到 的 模型 综合 起 来 ， 从 而 使 得 最 终 得 到 的 模型 更 加 健壮 
(robust) 。 


4.4.1 学 习 率 的 设置 


4.3 节 介绍 了 在 训练 神经 网 络 时 ， 需 要 设置 学 习 率 (Jearning ”rate) 控制 
参数 更 新 的 速度 。 本 小 节 将 进一步 介绍 如 何 设置 学 习 率 。 学 习 率 决定 了 
参数 每 次 更 新 的 幅度 。 如 琳 幅 度 过 大 ， 那 么 可 能 号 致 参数 在 极 优 值 的 两 


侧 来 回 移动 。4.3 节 介绍 过 优化 ,让 ( 完 ) 一 总 ” 画 数 的 样 例 。 如 果 在 
优化 中 使 用 的 学 习 率 为 1， 那 么 整个 优化 过 程 将 会 如 表 4-2 所 示 。 
表 4-2 当 学 习 率 过 大 时 ， 梯 度 下 降 算法 的 运行 过 程 














轮 数 当前 轮 参 数值 ”梯度 x 学 习 率 ”更 新 后 参数 值 


1 5 2x5x1=10 5-10=-5 

2 -5 2x (-5) -5- (-10) =5 
x1=-10 

3 5 2x5x1=10 5-10=-5 


从 上 面 的 样 例 可 以 看 出 ， 无 论 进行 多 少 轮 迭 代 ， 参 数 将 在 5 和 -5 之 间 拖 
摆 ， 而 不 会 收敛 到 一 个 极 小 值 。 相 反 ， 当 学 习 率 过 小 时 ， 虽 然 能 保证 收 
敛 性 ， 但 是 这 会 大 大 降低 优化 速度 。 我 们 会 需要 更 多 轮 的 迭代 才能 达到 
一 个 比较 理想 的 优化 效果 。 比 如 当 学 习 率 为 0.001 时 ， 连 代 5 次 之 后 ，x 
的 值 将 为 4.95。 要 将 x 训练 到 0.05 需 要 大 约 2300 轮 ， 而 当 学 习 率 为 0.3 
时 ， 只 需要 5 轮 束 可 以 达到 。 综 上 所 述 ， 学 习 率 既 不 能 过 大 ， 也 不 能 过 
小 。 为 了 解决 设 定 学 习 率 的 问题 ，TensorFlow 提 供 了 一 种 更 加 灵活 的 学 
习 率 设置 方法 一 一 指数 襄 减 法 。tf.train.exponential_decay 消 数 实现 了 指 
数 衰减 学 习 率 。 通 过 这 个 函数 ， 可 以 先 使 用 较 大 的 学 习 率 来 快速 得 到 一 
个 比较 优 的 解 ， 然 后 随 着 友 代 的 继续 逐步 减 小 学 习 率 ， 使 得 模型 在 训练 
后 期 更 加 稳定 。exponential_decay 函 数 会 指数 级 地 减 小 学 习 率 ， 它 实现 
了 以 下 代码 的 功能 : 





decayed_learning_rate = 和 


learning_rate * decay_rate ^ (global step / decay_ steps) 


其 中 decayed_learning_rate 为 每 一 轮 优 化 时 使 用 的 学 习 率 ，learning_rate 
为 事先 设 定 的 初始 学 习 率 ，decay_rate 为 衰减 系数 ，decay_steps 为 衰减 速 
上 度 。 网 4-13 显 示 了 随 着 迭代 轮 数 的 增加 ， 学 习 率 逐步 降低 的 过 程 。 
tt.train.exponential_decay 函 数 可 以 通过 设置 参数 staircase 选 择 不 同 的 衰减 
方式 。staircase 的 默认 值 为 False， 这 时 学 习 率 随 友 代 轮 数 变化 的 趋势 如 
图 4-13 中 灰色 曲线 所 示 。 当 staircase 的 值 被 设置 为 True 时 ，global step / 
decay_steps 会 被 转化 成 整数 。 这 使 得 学 习 率 成 为 一 个 阶梯 函数 
(staircase function) 。 图 4-13 中 黑色 曲线 显示 了 阶梯 状 的 学 习 率 。 在 这 
样 的 设置 下 ，decay_steps 通 党 代表 了 完整 的 使 用 一 人 过 训练 数据 所 需要 的 
和 友 代 轮 数 。 这 个 迭代 轮 数 也 就 是 总 训练 样本 数 除 以 每 一 个 batch 中 的 训练 
样本 数 。 这 种 设置 的 常用 场景 是 每 完整 地 过 完 一 过 训练 数据 ， 学 习 率 就 
减 小 一 次 。 这 可 以 使 得 训练 数据 集中 的 所 有 数据 对 模型 训练 有 相等 的 作 


用 。 当 使 用 连续 的 指数 衰减 学 习 率 时 ， 不 同 的 训练 数据 有 不 同 的 学 习 
率 ， 而 当 学 习 率 减 小 时 ， 对 应 的 训练 数据 对 模型 训练 结果 的 影响 也 就 小 
了 。 下 面 给 出 了 一 段 代码 来 示范 如 何在 TensorFlow 中 使 用 
tf.train.exponential_decay 函 数 。 





0.1 
LN 一 一 阶梯 状 豪 减 学 习 率 连续 豪 减 学 习 率 


de = 
娃 
友 0.06 
0.04 二 -一 
一 一 
ma 
0.02 = 
me 
0 
1 51 101 151 201 251 301 351 401 451 501 551 601 651 701 751 801 851 901 951 
训练 迭代 轮 数 





图 4-13 ”指数 衰减 学 习 率 随 着 迭代 轮 数 的 变化 图 























(图 中 使 用 的 基础 学 习 率 为 0.1， 误 减 率 为 0.9， 训 减速 度 为 50) 














global_ step = tf.Variable(0) 


# 通过 exponential decay 函 数 生 成 学 习 率 。 
learning_rate = tf.train.exponential decay( 


0.1, global step, 100, 0.96, staircase=True) 


# 使 用 指数 衰减 的 学 习 率 。 在 minimize 函 数 中 传 入 gLobal_step 将 自动 更 新 
# gl1obal_step 参 数 ， 从 而 使 得 学 习 率 也 得 到 相应 更 新 。 
learning_step = tf.train.GradientDescentOptimizer(learning_ra 


.minimize(...my loss..., global step=global_ step) 


上 面 这 段 代 码 中 设 定 了 初始 学 习 率 为 0.1， 因 为 指定 了 staircase=True， 所 
以 每 训练 100 轮 后 学 习 率 乘 以 0.96。 一 般 来 说 初始 学 习 率 、 衰 减 系 数 和 
衰减 速度 都 是 根据 经 验 设置 的 。 而 且 损 失 函 数 下 降 的 速度 和 迭代 结束 之 
后 总 损失 的 大 小 没有 必然 的 联系 。 也 就 是 说 并 不 能 通过 前 几 轮 损失 函数 
下 降 的 速度 来 比较 不 同 神经 网 络 的 效果 。 


4.4.2 ”过 拟 合 问 题 


上 面 的 4.2 和 4.3 市 讲述 了 如 何在 训练 数据 上 优化 一 个 给 定 的 损失 函数 。 
然而 在 真实 的 应 用 中 想 要 的 并 不 是 让 模型 尽量 模拟 训练 数据 的 行为 ， 而 
是 希望 通过 训练 出 来 的 模型 对 未 知 的 数据 给 出 判断 。 模 型 在 训练 数据 上 
的 表现 并 不 一 定 代表 了 它 在 未 知 数据 上 的 表现 。 本 小 市 将 介绍 的 过 拟 合 
问题 就 是 可 以 导致 这 个 差距 的 一 个 很 重要 因素 。 所 谓 过 拟 合 ， 指 的 是 当 
一 个 模型 过 为 复杂 之 后 ， 它 可 以 很 好 地 “记忆 ”每 一 个 训练 数据 中 随机 噪 
首 的 部 分 而 瑟 记 了 要 去 “学 习 ” 训 练 数据 中 通用 的 趋势 。 举 一 个 极端 的 例 
子 ， 如 有 果 一 个 模型 中 的 参数 比 训 练 数据 的 总 数 还 多 ， 那 么 只 要 训练 数据 
不 冲突 ， 这 个 模型 完全 可 以 记 住 所 有 训练 数据 的 结果 从 而 使 得 损失 函数 
为 0。 可 以 直观 地 想象 一 个 包含 n 个 变量 和 n 个 等 式 的 方程 组 ， 当 方程 不 
冲突 时 ， 这 个 方程 组 是 可 以 通过 数学 的 方法 来 求解 的 。 然 而 ， 过 度 拟 合 
训练 数据 中 的 随机 噪音 虽然 可 以 得 到 非常 小 的 损失 函数 ， 但 是 对 于 未 知 
数据 可 能 无 法 做 出 可 靠 的 判断 。 


图 4-14 显 示 了 模型 训练 的 三 种 不 同情 况 。 在 第 一 种 情况 下 ， 由 于 模型 过 
于 简单 ， 无 法 刻画 问题 的 趋势 。 第 二 个 模型 是 比较 合理 的 ， 它 既 不 会 过 
于 关注 训练 数据 中 的 噪音 ， 又 能 够 比较 好 地 刻画 问题 的 整体 趋势 。 第 三 
个 模型 融 是 过 拟 合 了 ， 虽 然 第 三 个 模型 完美 地 划分 了 不 同形 状 的 点 ， 但 
征 这 样 的 划分 并 不 能 很 好 地 对 未 知 数 据 做 出 判断 ， 因 为 它 过 度 拟 合 了 训 
练 数据 中 的 噪音 而 忽视 了 问题 的 整体 规律 。 比 如 图 中 浅 色 方 框 “上 更 有 
可 能 和 “X” 属 于 同一 类 ， 而 不 是 根据 图 上 的 划分 和 “O” 属 于 同一 类 。 






































模型 过 于 简单 


合理 的 模型 





图 4-14 神经 网 络 模型 训练 的 三 种 情况 





为 了 避免 过 拟 合 问题 ， 一 个 非常 常用 的 方法 是 正则 化 

Gregularization) 。 正 则 化 的 思想 就 是 在 损失 函数 中 加 入 刻画 模型 复杂 
程度 的 指标 。 假 设 用 于 刻画 模型 在 训练 数据 上 表现 的 损失 函数 为 J(8) ， 
那么 在 优化 时 不 是 直接 优化 J(0) ， 而 是 优化 
J (0) :让 R(W) ,其 中 R(wW) 刻画 的 是 模型 的 复 
杂 程 度 ， 而 4 表示 模型 复杂 损失 在 总 损失 中 的 比例 。 注 意 这 里 表示 的 
是 一 个 神经 网 络 中 所 有 的 参数 ， 它 包括 边 上 的 权重 w 和 偏 置 项 b。 一 般 
来 说 模型 复杂 度 只 由 权重 w 决定 。 常 用 的 刻画 模型 复杂 度 的 函数 R(w) 
有 两 种 ， 一 种 是 L 1 正则 化 ， 计 算 公式 是 : 


R(w) =|w ,= 此 wi 


9 


























另 一 种 是 了 2 正则 化 ， 计 算 公 式 是 : 





民 (1) 一 lw 全 wi 
1] 


无 论 是 哪 一 种 正则 化 方式 ， 基 本 的 思想 都 是 希望 通过 限制 权重 的 大 小 ， 
使 得 模型 不 能 任意 拟 合 训练 数据 中 的 随机 噪音 。 但 这 两 种 正则 化 的 方法 
也 有 很 大 的 区 别 。 首 先 , 工 1 正则 化 会 让 参数 变 得 更 稀疏 ， 而 L 2 正则 化 
不 会 。 所 谓 参 数 变 得 更 称 虽 是 指 会 有 更 多 的 参数 变 为 0， 这 样 可 以 达到 
类 似 特征 选取 的 功能 。 之 所 以 L 2 正则 化 不 会 让 参数 变 得 稀疏 的 原因 是 
当 参数 很 小 时 ， 比 如 0.001， 这 个 参数 的 平方 估 本 上 就 可 以 忽略 了 ， 于 
是 模型 不 会 进一步 将 这 个 参数 调整 为 0。 其 次 ，L 1 正则 化 的 计算 公式 不 
可 导 ， 而 L 2 正则 化 公式 可 导 。 因 为 在 优化 时 需要 计算 损失 函数 的 偏 导 
数 ， 所 以 对 含有 L 2 正则 化 损失 函数 的 优化 要 更 加 简洁 。 优 化 带 L 1 正则 
化 的 损失 函数 要 更 加 复杂 ， 而 且 优化 方法 也 有 很 多 种 。 在 实践 中 ， 也 可 
以 将 埃 1 正 则 化 和 天 2 正则 化 同时 使 用 : 


R(W) = py 0 


4.2 小 节 提 到 过 TensorFlow 可 以 优化 任意 形式 的 损失 函数 ， 所 以 
TensorFlow 目 然 也 可 以 优化 带 正 则 化 的 损失 函数 。 以 下 代码 给 出 了 一 个 
简单 的 带 二 2 正则 化 的 损失 函数 定义 : 




















w= tf.Variable(tf.random normal([2, 1|], stddev=1, seed=1)) 


y = tf.matmul(x, w) 


loss = tf.reduce mean(tf.square(y_  - y)) + 


tf.contrib.1layers.12 regularizer(lambda)(w) 


在 上 面 的 程序 中 ，loss 为 定义 的 损失 函数 ， 它 由 两 个 部 分 组 成 。 


部 分 是 4.2.1 小 节 中 介绍 的 均 方 误差 损失 函数 ， 它 刻画 了 模型 在 训练 数据 
上 的 表现 。 第 二 个 部 分 就 是 正则 化 ， 它 防止 模型 过 度 模拟 训练 数据 中 的 
随机 噪音 。lambda 参 数 表 示 了 正则 化 项 的 权重 ， 也 区 是 公式 

J (0) 人 R(wW) 中 的 A 。w 为 需要 计算 正则 化 损失 的 参 
数 。TensorFlow 提 供 了 tf.contrib.layers.12_regularizer 函 数 ， 它 可 以 返回 一 
个 函数 ， 这 个 函数 可 以 计算 一 个 给 定 参 数 的 L 2 正则 化 项 的 值 。 类 似 
的 ，tt.contrib.layers.1]1_regularizer 可 以 计算 工 1 正则 化 项 的 值 。 以 下 代码 
给 出 了 使 用 这 两 个 函数 的 样 例 : 





weights = tf.constant([[1.0, -2.0], [-3.0, 4.0]]) 
with tf.Session() as sess: 
# 输出 为 (|1|+|-2|+|-3|+|4|)x9.5=5。 其 中 0.5 为 正则 化 项 的 权重 。 


print sess.run(tf.contrib.1layers.11 regularizer(.5) 
(weights)) 


# 输出 为 (12+(-2)2+(-3)2+42)/2x0.5=7.5。 


print sess.run(tf.contrib,.layers.12 regularizer(.5) 
(weights)) 


在 简单 的 神经 网 络 中 ， 这 样 的 方式 就 可 以 很 好 地 计算 带 正 则 化 的 损失 郴 
数 了 。 但 当 神 经 网 络 的 参数 增多 之 后 ， 这 样 的 方式 首先 可 能 导致 损失 郴 
数 loss 的 定义 很 长 ， 可 读 性 差 且 容易 出 错 。 但 更 主要 的 是 ， 当 网 络 结构 
复杂 之 后 定义 网 络 结构 的 部 分 和 计算 损失 函数 的 部 分 可 能 不 在 同一 个 函 
数 中 ， 这 样 通过 变量 这 种 方式 计算 损失 函数 就 不 方便 了 。 为 了 解决 这 个 
问题 ， 可 以 使 用 TensorFlow 中 提供 的 集合 〈collection ) 。 集 合 的 概念 在 
3.1 节 中 介绍 过 ， 它 可 以 在 一 个 计算 图 (tf.Graph〉 中 保存 一 组 实体 ( 比 
如 张 量 ) 。 以 下 代码 给 出 了 通过 集合 计算 一 个 5 层 神 经 网 络 带 LI 2 正则 化 
的 损失 函数 的 计算 方法 。 














import tensorflow as tf 


# ”获取 一 层 神经 网 络 边 上 的 权重 ， 并 将 这 个 权重 的 L2 正 则 化 损失 加 入 名 称 
为 'l0osses' 的 集合 中 


def get weight(shape, lambda): 
和 一 个 2 全 
var = tf.Variable(tf.random normal(shape), dtype = tf.f 
# add to_collection 函 数 将 这 个 新 生成 变量 的 L2 正 则 化 损失 项 加 入 集 
# 这 个 函数 的 第 一 个 参数 "1osses ' 是 集合 的 名 字 ， 第 二 个 参数 是 要 加 入 这 
个 集合 的 内 容 。 
tf.add to collection( 


'losses',tf.contrib.1layers.12 regularizer(lambda) 
(Var ) ) 


# 返回 生成 的 变量 。 


return Var 


x = tf.placeholder(tf.float32, shape=(None, 2)) 
y_ = tf.placeholder(tf.float32, shape=(None, 1)) 
batch_size = 8 

# 定义 了 每 一 层 网 络 中 节点 的 个 数 。 

layer_dimension = [2, 10, 10, 10, 1] 


# 神经 网 络 的 层 数 。 





n_layers = len(layer_dimension) 


# 这 个 变量 维护 前 向 传播 时 最 深层 的 节点 ， 开 始 的 时 候 就 是 输入 层 。 





cur_layer = x 
# 当前 层 的 节点 个 数 。 


in_dimension = layer_dimension[0] 


# 通过 一 个 循环 来 生成 5 层 全 连接 的 神经 网 络 结构 。 

for i in range(1, n_layers): 
# layer_dimension[i] 为 下 一 层 的 节点 个 数 。 
out_dimension = layer_dimension[i] 


三 # 生成 当前 层 中 权重 的 变量 ， 并 将 这 个 变量 的 L2 正 则 化 损失 加 入 计算 图 上 


weight = get weight([in dimension，out_dimension]，0.00 


bias = tf.Variable(tf.constant(0.1, shape= 
[out_dimension])) 


# 使 用 ReLU 激 活 函 数 。 
cur_layer = tf.nn.relu(tf.matmul(cur_layer, weight) + bias) 


# 进入 下 一 层 之 前 将 下 一 层 的 节点 个 数 更 新 为 当前 层 节点 个 数 。 





in_dimension = layer_dimension[i] 


# 在 定义 神经 网 络 前 向 传播 的 同时 已 经 将 所 有 的 L2 正 则 化 损失 加 入 了 图 上 的 集 


# 这 里 只 需要 计算 刻画 模型 在 训练 数据 上 表现 的 损失 函数 。 


mse_loss = tf.reduce mean(tf.square(y_ - cur_layer)) 


# 将 均 方 误差 损失 函数 加 入 损失 集合 。 


tf.add_ to collection('losses', mse_ loss) 


二 
| 》 


# 这 些 元 素 就 是 损失 函数 的 不 同 部 分 ， 将 它们 加 起 来 就 可 以 得 到 最 终 的 损失 函数 。 


loss = tf.add n(tf.get collection('losses')) 


从 上 面 的 代码 可 以 看 出 通过 使 用 集合 的 方法 在 网 络 结构 比较 复杂 的 情况 
下 可 以 使 代码 的 可 读 性 更 高 。 上 面 的 代码 给 出 的 是 一 个 只 有 5 层 的 全 连 
接 网 络 ， 在 更 加 复杂 的 网 络 结构 中 ， 使 用 这 样 的 方式 来 计算 损失 函数 将 
大 大 增强 代码 的 可 读 性 。 


4.4.3 ”滑动 平均 侦 型 


这 一 个 小 节 将 介绍 另外 一 个 可 以 使 模型 在 测试 数据 上 更 健壮 〈robust) 
的 方法 一 一 滑动 平均 模型 。 在 采用 随机 梯度 下 降 算 法 训练 神经 网 络 时 ， 
使 用 滑动 平均 模型 在 很 多 应 用 中 都 可 以 在 一 定 程度 提高 最 终 模型 在 测试 
数据 上 的 表现 。 


在 TensorFlow 中 提供 了 tft.train.ExponentialMovingAverage 来 实现 滑动 平均 
模型 。 在 初始 化 ExponentialMovingAverage 时 ， 和 需要 提供 一 个 衰减 率 

(decay) 。 这 个 衰减 率 将 用 于 控制 模型 更 新 的 速度 。 
ExponentialMovingAverage 对 每 一 个 变量 会 维护 一 个 影子 变量 〈shadow 
variable) ， 这 个 影子 变量 的 初始 值 就 是 相应 变量 的 初始 值 ， 而 每 次 运 
行 变量 更 新 时 ， 影 子 变 量 的 值 会 更 新 为 : 


shadow vartable = decay xshadow vartable + (1 decay)x vartable 


其 中 shadow_variable 为 影子 变量 ，variable 为 待 更 新 的 变量 ，decay 为 衰 
减 率 。 从 公式 中 可 以 看 到 ，decay 决 定 了 模型 更 新 的 速度 ，decay 越 大 模 
型 越 趋 于 稳定 。 在 实际 应 用 中 ，decay 一 般 会 设 成 非常 接近 1 的 数 〈 比 如 
0.999 或 0.9999) 。 为 了 使 得 模型 在 训练 前 期 可 以 更 新 得 更 快 ， 
ExponentialMovingAverage 还 提供 了 num_updates 参 数 来 动态 设置 decay 的 
大 小 。 如 果 在 ExponentialMovingAverage 初 始 化 时 提供 了 num_updates 参 
数 ， 那 么 每 次 使 用 的 衰减 率 将 是 : 














| l+num updates 
min :decay. 一 -一 一 一 一 
10+num updates 


下 面 通过 一 段 代 码 来 解释 ExponentialMovingAverage 是 如 何 被 使 用 的 。 


Import tensorflow as tf 





# 定义 一 个 变量 用 于 计算 滑动 平均 ， 这 个 变量 的 初始 值 为 0。 注 意 这 里 手动 指定 了 


变量 的 
# 类 型 为 tf .float32， 因 为 所 有 需要 计算 滑动 平均 的 变量 必须 是 实数 型 。 
v1 = tf.Variable(0, dtype=tf.float32) 

# 这 里 step 变 量 模拟 神经 网 络 中 连 代 的 轮 数 ， 可 以 用 于 动态 控制 衰减 率 。 


step = tf.Variable(0, trainable=False) 


# 定义 一 个 滑动 平均 的 类 (class)。 和 初始 化 时 给 定 了 衰减 率 (0.,99) 和 控制 衰减 率 
的 变量 step。 


ema = tf.train.ExponentialMovingAverage(0.99, step) 


# 定义 一 个 更 新 变量 滑动 平均 的 操作 。 这 里 需要 给 定 一 个 列表 ， 每 次 执行 这 个 操作 











时 
# 这 个 列表 中 的 变量 都 会 被 更 新 。 


maintain_ averageSs_ op = ema.apply([v1]) 


with tf.Session() as sess: 
# 初始 化 所 有 变量 。 
init op = tf.initialize all _ variables() 


sess.run(init_op) 


# 通过 ema .average(v1) 获 取 滑动 平均 之 后 变量 的 取 值 。 在 初始 化 之 后 变量 
v1 的 值 和 v1 的 


# 滑动 平均 都 为 9。 


print sess.run([v1i, ema.average(v1)]) # ”输出 
[0.0, 09.0] 


# 更 新 变量 v1 的 值 到 5。 
sess.run(tf.assign(vi, 5)) 


# ”更 新 v1 的 滑动 平均 值 。 衰 减 率 为 nin{0.99,， 
(1i+step)/(1i0+step)= 0.1}=0.1, 


# 所 以 v1 的 滑动 平均 会 被 更 新 为 0 .1x0+0 .9x5=4.5。 
sess.run(maintain_averages_op) 


print sess.run([v1i, ema.average(v1)]) # ”输出 
[5.0, 4.5] 


# 更 新 step 的 值 为 10000。 
sess.run(tf.assign(step, 10000)) 
# 更 新 v1 的 值 为 10。 
sess.run(tf.assign(vi, 10)) 


# ”更 新 v1 的 滑动 平均 值 。 衰 减 率 为 nin{0.99,， 
(ili+step)/(10+step) 0.999}=0.99, 


# 所 以 v1 的 滑动 平均 会 被 更 新 为 0.99x4.5+0.01x10=4.555。 
sess.run(maintain_averages._op) 
print sess.run([vi, ema.average(v1)]) 


# ”输出 [10.0，4.5549998] 


# ”再 次 更 新 滑动 平均 值 ， 得 到 的 新 滑动 平均 值 为 
0.99x4.555+0.01x10=4.60945。 


sess.run(maintain_averages_op) 
print sess.run([vi, ema.average(v1)]) 


# 输出 [10.0，4.6094499] 


上 面 的 代码 给 出 了 ExponentialMovingAverage 的 简单 样 例 ， 在 第 5 章 中 将 
给 出 在 真实 应 用 中 使 用 滑动 平均 的 样 例 。 


小 结 


本 章 详 细 讲 解 了 使 用 神经 网 络 解决 实际 问题 过 程 中 的 各 个 环节 。 首 移 

4.1 节 介绍 了 设计 神经 网 络 结构 时 的 两 个 总 体 原 则 一 一 非 线性 结构 和 多 

层 结构 。 这 一 市 先 说 明了 深度 学 习 基 本 上 束 是 深层 神经 网 络 的 代名词 。 
然后 通过 对 深度 学 习 定义 中 两 个 性 质 的 详细 讲解 ， 指 出 了 非 线性 结构 和 
多 层 结构 是 解决 复杂 问题 的 必要 方法 。 这 一 节 通 过 具体 的 例子 讲解 了 线 
性 模型 和 浅 层 模型 的 局 限 性 。 


然后 4.2 节 介绍 了 如 何 设计 损失 函数 。 神 经 网 络 是 一 个 优化 问题 ， 而 损 
失 函 数 就 刻画 了 神经 网 络 需 要 优化 的 目标 。 这 一 节 讲 解 了 分 类 问题 和 回 
归 问 题 中 比较 常用 的 损失 函数 ， 同 时 也 介绍 了 如 何 设计 更 加 贴近 实际 问 
题 需求 的 损失 函数 。 在 这 一 节 中 通过 一 个 实际 样 例 讲解 了 不 同 损 失 函 数 
对 神经 网 络 参 数 优化 结果 的 影响 。 


接着 4.3 节 介绍 了 优化 神经 网 络 时 最 第 用 的 梯度 下 降 算 法 和 反 回 传播 算 
法 。 在 这 一 节 中 ， 主 要 讲解 了 梯度 下 降 算 法 的 基本 概念 和 主体 思想 ， 并 
给 出 了 通过 梯度 下 降 算 法 优化 一 个 简单 函数 J (Cx) =x : 的 样 例 。 通 过 这 
个 例子 ， 读 者 可 以 对 神经 网 络 的 优化 过 程 有 一 个 大 概 的 、 直 观 的 了 解 。 
这 一 节 还 介绍 了 随机 梯度 下 降 和 使 用 batch 的 随机 梯度 下 降 算法 ， 并 给 出 
了 使 用 TensorFlow 优 化 神经 网 络 的 计算 框架 。 


最 后 4.4 玉 介绍 了 三 个 神经 网 络 优 化 过 程 中 可 能 会 遇 到 的 问题 ， 并 介绍 
了 解决 这 些 问 题 的 常用 方法 。 首 先 4.4.1 小 节 介 绍 了 通过 指数 衰减 的 方式 
来 设置 学 习 率 。 通 过 这 种 方法 ， 既 可 以 加 快 训练 初期 的 训练 速度 ， 同 时 
在 训练 后 期 又 不 会 出 现 损 失 函 数 在 极 小 值 周围 徘徊 往返 的 情况 。 然 后 
4.4.2 小 节 介 绍 了 通过 正则 化 解决 过 度 拟 合 的 问题 。 当 损失 函数 仅 取决 于 
在 训练 数据 上 的 拟 合 程度 时 ， 神 经 网 络 模型 有 可 能 只 是 “记忆 ”了 所 有 的 























训练 数据 ， 而 无 法 很 好 地 对 未 知 数据 做 出 判断 。 正 则 化 通过 在 损失 函数 
中 加 入 对 模型 复杂 程度 的 因素 ， 可 以 有 效 避 免 过 拟 合 问 题 。 最 后 4.4.3 小 
节 介 绍 了 使 用 滑动 平均 模型 让 最 后 得 到 的 模型 在 未 知 数据 上 更 加 健壮 。 


这 一 章 讲解 了 使 用 神经 网 络 模型 时 需要 考虑 的 主要 问题 。 从 神经 网 络 模 
型 结构 的 设计 、 损 失 函 数 的 设计 、 神 经 网 络 的 优化 和 神经 网 络 进一步 调 
优 四 个 方面 覆盖 了 设计 和 优化 神经 网 络 过 程 中 可 能 遇 到 的 主要 问题 。 在 
下 面 的 第 5 章 中 ， 将 通过 一 个 具体 的 问题 来 验证 本 章 中 提 到 的 神经 网 络 
程序 。 





























(1) 具体 定义 可 以 参考 维基 百科 : https://en.wikipedia.org/wiki/Deep_learning。 




















C) 4.1.2 小 节 将 详细 介绍 激活 函数 。 


(3) 参见 : Minsky, M.; S. Papert. Perceptrons: An Introduction to Computational Geometry [J]. MIT 
Press,1969, ISBN 0-262-63022-2. 


(4 均 方 误差 也 是 分 类 问题 中 常用 的 一 种 损失 函数 。 











(5) http://docs.scipy.org/doc/numpy/user/basics.broadcasting.html 中 有 关于 广播 操作 
(broadcasting)〉 的 具体 讲解 。 


























(6) 更 多 关于 反问 传播 算法 的 细节 可 以 参见 : Rumelhart D E, Hinton G E, Williams R J. Learning 
representations by back-propagating errors [M]Neurocomputing: foundations of research. MIT Press， 
1986.。 


(07) 学 习 率 的 设置 将 在 4.4.1 小 节 中 详细 介绍 。 


(8) Rumelhart D E, Hinton G E, Williams R J. Learning representations by back-propagating errors 
[MI]. Neurocomputing: foundations of research. MIT Press, 1986. 
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第 5 章 ”MNIST 数 字 识 别 问 题 
第 4 章 介 绍 了 训练 神经 网 络 模 型 时 需要 考虑 的 主要 问题 以 及 解决 这 些 问 


题 的 第 用 方法 。 这 一 间 将 通过 一 个 实际 问题 来 验证 第 4 章 中 介绍 的 解决 
方法 。 本 童 将 使 用 的 数据 集 是 MNIST 手 写 体 数字 识别 数据 集 。 在 很 多 深 


度 学 习 教 程 中 ， 这 个 数据 集 都 会 被 当 作 第 一 个 案例 。 在 验证 神经 网 络 优 
化 方法 的 同时 ， 本 章 也 会 介绍 使 用 TensorFlow 训 | 练 神经 网 络 的 最 佳 实 
践 。 


首先 在 5.1 节 中 将 介绍 MNIST 手 写 体 数字 识别 数据 集 ， 并 且 给 出 
TensorFlow 程 序 处 理 MNIST 数 据 2-。 然 后 5.2 节 将 对 比 第 4 章 中 提 到 的 神 
经 网 络 结构 设计 和 参数 优化 的 不 同方 法 ， 从 实际 的 问题 中 验证 不 同 优化 
方法 带 来 的 性 能 提升 。 接 着 在 5.3 和 5.4 两 节 中 将 指出 5.2 节 中 TensorFlow 
程序 实现 神经 网 络 的 不 足 之 处 ， 并 介绍 TensorFlow 的 最 佳 实 践 来 解决 这 
些 不 足 。 其 中 ，5.3 节 将 介绍 TensorFlow 变 量 重用 的 问题 和 变量 的 命名 衬 
间 ; 5.4 节 将 介绍 如 何 将 一 个 神经 网 络 模型 持久 化 ， 使 得 之 后 可 以 直接 
使 用 训练 好 的 模型 。 最 后 在 5.5 节 中 将 整合 5.3 和 5.4 节 中 介绍 的 
TensorFlow 最 佳 实践 ， 通 过 一 个 完整 的 TensorFlow 程 序 解决 MNIST 问 
题 。 


5.1 MNIST 数 据 处 理 


MNIST 是 一 个 非常 有 名 的 手写 体 数 字 识 别 数据 集 ， 在 很 多 资料 中 ， 这 个 
数据 集 都 会 被 用 作 深 度 学 习 的 入 门 样 例 。 本 节 中 将 大 致 讲解 这 个 数据 集 
的 基本 情况 ， 并 介绍 TensorFlow 对 MNIST 数 据 集 做 的 封装 。TensorFlow 
的 封装 让 使 用 MNIST 数 据 集 变 得 更 加 方便 。MNIST 数 据 集 是 NIST 数 据 
集 的 一 个 子 集 ， 它 包含 了 60000 张 图 片 作为 训练 数据 ，10000 张 图 片 作为 
测试 数据 。 在 MNIST 数 据 集中 的 每 一 张 图 片 都 代表 了 0~9 中 的 一 个 数 
字 。 图 片 的 大 小 都 为 28x28， 且 数字 都 会 出 现在 图 片 的 正中 间 。 图 5-1 展 
示 了 一 张 数 字 图 片 及 和 它 对 应 的 像素 矩阵 。 
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图 5-1 数字 图 片 及 其 像素 矩阵 


在 图 5-1 的 左 侧 显 示 了 一 张 数字 1 的 图 片 ， 而 右 侧 显示 了 这 个 图 片 所 对 应 
的 像素 矩阵 ee- 。 在 Yann LeCun 教 授 的 网 站 中 
Chttp:/yann.lecun.comy/exdb/mnist) 对 MNIST 数 据 集 做 出 了 详细 的 介 
MNIST 数 据 集 提供 了 4 个 下 载 文件 ， 表 5-1 归 纳 了 下 载 文件 中 提供 的 
人 


表 5-1 MNIST 数 据 下 载 地 址 和 内 容 





网 址 内 容 
http://yann.lecun.com/exdb/mnist/train- 训练 数据 图 片 
images-idx3-ubyte.gz 
http://yann.lecun.com/exdb/mnist/train- 训练 数据 答案 
labels-idx, -ubyte.gz 


http://yann.lecun.com/exdb/mnist/t10k- 测试 数据 图 片 
images-idx3-ubyte.gz 

http://yann.lecun.com/exdb/mnist/t10k- 测试 数据 答案 
labels-idx, -ubyte.gz 


虽然 这 个 数据 集 只 提供 了 训练 和 测试 数据 ， 但 是 为 了 验证 模型 训练 的 效 
果 ， 一 般 会 从 训练 数据 中 划分 出 一 部 分 数据 作为 验证 (validation ) 数 
据 。 在 5.2.2 小 节 中 将 更 加 详细 地 介绍 验证 数据 的 作用 。 为 了 方便 使 用 ， 
TensorFlow 提 供 了 一 个 类 来 处 理 MNIST 数 据 。 这 个 类 会 自动 下 载 并 转化 
MNIST 数 据 的 格式 ， 将 数据 从 原始 的 数据 包 中 解析 成 训练 和 测试 神经 网 
络 时 使 用 的 格式 。 下 面 给 出 了 使 用 这 个 函数 的 样 例 程序 。 





from tensorflow.examples.tutorials.mnist import Input_data 


# 载 入 MNIST 数 据 集 ， 如 果 指 定 地 址 /pathZtoZMNIST_data 下 没有 已 经 下 载 好 的 


# 那么 TensorFlow 会 自动 从 表 5-1 给 出 的 网 址 下 载 数 据 。 


mnist = input_data.read data sets("/path/to/MNIST data/", one 


# 打印 Training data size: 55000。 


rint "Training data size: ", mnist.train.num examples 
了 


# 打印 Validating data size: 5000。 


print "Validating data size: ", mnist.validation.num examples 


# 打印 Testing data size: 10000。 


print "Testing data size: ", mnist.test.num examples 


# 打印 
Example training data: [ 0. 0O. 0， . 0.380 0.376 - 0. 


print "Example training data: ", mnist.train.images[0] 


# 打印 EXxample training data label: 
to OO Oo bo bo dato 05 


print "Example training data label: ", mnist.train.labels[0] 


从 上 面 的 代码 中 可 以 看 出 ， 通 过 input_data.read_data_sets 函 数 生 成 的 次 
会 自动 将 MNIST 数 据 集 划分 为 train、validation 和 test 三 个 数据 集 ， 其 中 
train 这 个 集合 内 有 55000 张 图 片 ，validation 集 合 内 有 5000 张 图 片 ， 这 两 
个 集合 组 成 了 MNIST 本 身 提供 的 训练 数据 集 。test 集 合 内 有 10000 张 图 
片 ， 这 些 图 片 都 来 自 于 MNIST 提 供 的 测试 数据 集 。 处 理 后 的 每 一 张 图 片 
是 一 个 长 度 为 784 的 一 维 数组 ， 这 个 数组 中 的 元 素 对 应 了 图 片 像素 矩阵 
中 的 每 一 个 数字 (28x28=784) 。 因 为 神经 网 络 的 输入 是 一 个 特征 向 
量 ， 所 以 在 此 把 一 张 二 维 图 像 的 像素 矩阵 放 到 一 个 一 维 数组 中 可 以 方便 
TensorFlow 将 图 片 的 像素 矩阵 提供 给 神经 网 络 的 输入 层 。 像 素 矩 阵 中 元 
素 的 取 值 范围 为 [0， 1]， 它 代表 了 颜色 的 深浅 。 其 中 0 表示 白色 背景 





(background) ，1 表 示 黑 色 前 景 〈foreground) 。 为 了 方便 使 用 随机 梯 
度 下 降 ，input_data.read_data_sets 函 数 生 成 的 类 还 提供 了 
mnist.train.next_batch 函 数 ， 它 可 以 从 所 有 的 训练 数据 中 读 取 一 小 部 分 作 
为 一 个 训练 batch。 以 下 代码 显示 了 如 何 使 用 这 个 功能 。 





batch_size = 100 

xs, ys = mnist.train.next_ batch(batch_ size) 
# 从 train 的 集合 中 选取 batch_size 个 训练 数据 。 
print "XxX shape:", xs.shape 

# 输出 X shape:; (100, 784)。 

print "Y shape:", ys.shape 


# 输出 Y shape， (100,，10)。 


5.2 ”神经 网 络 模型 训练 及 不 同 模型 结 
未 对 比 


本 节 将 利用 MNIST 数 据 集 实现 并 研究 第 4 章 中 介绍 的 神经 网 络 模型 设计 
及 优化 的 方法 。 首 先 ， 在 5.2.1 小 节 中 将 给 出 一 个 完整 的 TensorFlow 程 序 
来 解决 MNIST 问 题 。 这 个 程序 整合 了 第 4 章 中 介绍 的 所 有 优化 方法 ， 训 
练 好 的 神经 网 络 模型 在 MNIST 测 试 数据 集 上 可 以 达到 98.4% 左 右 的 正确 
率 。 然 后 5.2.2 小 节 将 介绍 验证 数据 集 在 训练 神经 网 络 过 程 中 的 作用 。 这 
一 小 节 将 通过 5.2.1 小 节 中 得 到 的 实验 数据 来 证 明 ， 神 经 网 络 在 验证 数据 
集 上 的 表现 可 以 近似 地 作为 评价 不 同 神经 网 络 模型 的 标准 或 者 决定 迭代 
轮 数 的 依据 。 最 后 5.2.3 小 节 将 通过 MNIST 数 据 集 验证 第 4 章 中 介绍 的 每 
一 个 优化 方法 。 通 过 在 MNIST 数 据 集 上 的 实验 可 以 看 到 ， 这 些 优化 方法 
都 可 以 或 多 或 少 地 提高 神经 网 络 的 分 类 正确 率 。 


5.2.1 TensorFlow 训 练 神 经 网 络 





这 一 小 节 将 给 出 一 个 完整 的 TensorFlow 程 序 来 解决 MNIST 手 写 体 数 字 识 
别 问 题 。 这 一 小 节 中 给 出 的 程序 实现 了 第 4 章 中 介绍 的 神经 网 络 结构 设 
计 和 训练 优化 的 所 有 方法 。 在 给 出 具体 的 代码 之 前 ， 先 回顾 一 下 第 4 章 
中 提 到 的 主要 概念 。 在 神经 网 络 的 结构 上 ， 深 度 学 习 一 方面 需要 使 用 激 
活 函 数 实现 神经 网 络 模型 的 去 线性 化 ， 另 一 方面 需要 使 用 一 个 或 多 个 隐 
基层 使 得 神经 网 络 的 结构 更 深 ， 以 解决 复杂 问题 。 在 训练 神经 网 络 时 ， 
第 4 章 介 绍 了 使 用 带 指数 衰减 的 学 习 率 设置 、 使 用 正则 化 来 避免 过 度 拟 
合 ， 以 及 使 用 滑动 平均 模型 来 使 得 最 终 模型 更 加 健 半 。 以 下 代码 给 出 了 
一 个 在 MNIST 数 据 集 上 实现 这 些 功能 的 完整 的 TensorFlow 程 序 。 











import tensorflow as tf 


from tensorflow.examples.tutorials.mnist import input_data 


# MNIST 数 据 集 相关 的 常数 。 


INPUT_NODE = 784 # 输入 层 的 节点 数 。 对 于 MNIST 数 据 集 ， 这 个 就 等 于 
图 片 的 像素 。 

OUTPUT_NODE = 10 # 输出 层 的 节点 数 。 这 个 等 于 类 别 的 数目 。 因 为 在 
MNIST 数 据 集中 


# 需要 区 分 的 是 0~9 这 10 个 数字 ， 所 以 这 里 输 
出 层 的 节点 数 为 10。 


# 配置 神经 网 络 的 参数 。 


LAYER1 NODE = 500 # 隐藏 层 节 点 数 。 这 里 使 用 只 有 一 个 隐藏 层 的 网 络 结 
构 作 为 样 例 。 





# 这 个 隐藏 层 有 500 个 节点 。 


BATCH SIZE = 100 # 一 个 训练 batch 中 的 训练 数据 个 数 。 数 字 越 小 时 ， 
训练 过 程 越 接近 


# 随机 梯度 下 降 ; 数字 越 大 时 ， 训 练 越 接近 梯 


度 下 降 。 
LEARNING RATE_BASE = 0.8 # 基础 的 学 习 率 。 
LEARNING_ RATE_DECAY = 0.99 # 学 习 率 的 衰减 率 。 
REGULARIZATION_RATE = 0.0001 # 描述 模型 复杂 度 的 正则 化 项 在 
损失 函数 中 的 系数 。 
TRAINING_STEPS = 30000 # 训练 轮 数 。 
MOVING_AVERAGE_DECAY = 0.99 # 滑动 平均 衰减 率 。 


# 一 个 辅助 函数 ， 给 定神 经 网 络 的 输入 和 所 有 参数 ， 计 算 神经 网 络 的 前 向 传播 结 
果 。 在 这 里 


# 定义 了 一 个 使 用 ReLU 激 活 函 数 的 三 层 全 连接 神经 网 络 。 通 过 加 入 隐藏 层 实现 了 多 
层 网 络 结构 ， 


通过 ReLU 激 活 函 数 实现 了 去 线性 化 。 在 这 个 函数 中 也 支持 传 入 用 于 计算 参数 平均 
类， 


# 这 样 方便 在 测试 时 使 用 滑动 平均 模型 。 








def inference(input_tensor, avg_class, weights1, biases1, 
weights2, biases2): 
# 当 没 有 提供 滑动 平均 类 时 ， 直 接 使 用 参数 当前 的 取 值 。 
if avg_class == None: 
# 计算 隐藏 层 的 前 向 传播 结果 ， 这 里 使 用 了 ReLU 激 活 函 数 。 
layer1 = tf.nn.relu(tf.matmul(input_ tensor, weights1) 


# 计算 输出 层 的 前 向 传播 结果 。 因 为 在 计算 损失 函数 时 会 一 并 计算 
softmax 函 数 ， 


# 所 以 这 里 不 需要 加 入 激活 函数 。 而 且 不 加 入 softmax 不 会 影响 预测 
结果 。 因 为 预测 时 


# 使 用 的 是 不 同类 别 对 应 节点 输出 值 的 相对 大 小 ， 有 没有 softmax 层 
对 最 后 分 类 结果 的 


# 计算 没有 影响 。 于 是 在 计算 整个 神经 网 络 的 前 向 传播 时 可 以 不 加 入 最 
后 的 softmax 层 。 


return tf.matmul(layer1, weights2) + biases2 


ESER 
# 首先 使 用 avg_class.average 函 数 来 计算 得 出 变量 的 滑动 平均 值 ， 
# 然后 再 计算 相应 的 神经 网 络 前 向 传播 结 
layer1 = tf.nn.relu( 
tf.matmul(input_tensor, avg_class.average(weight 
avg_class.average(biases1)) 
return tf.matmul(layer1, avg_class.average(weights2)) 


avg_class. average(biases2) 


# 训练 模型 的 过 程 。 
def train(mnist): 


x = tf.placeholder(tf.float32, [None, INPUT_NODE], name=" 
input") 


y_ = tf.placeholder(tf.float32, [None, OUTPUT_NODE], name 
input") 


# 生成 隐藏 层 的 参数 。 
weights1 = tf.Variablel( 
tf.truncated normal([INPUT_NODE, LAYER1 NODE], stddev 


biases1 = tf.Variable(tf.constant(0.1, shape= 
[LAYER1_NODE] )) 


# 生成 输出 层 的 参数 。 


weights2 = tf,.Variable( 
tf.truncated normal( [LAYER1 NODE, OUTPUT_NODE], stdde 


biases2 = tf.Variable(tf.constant(0.1, shape= 
[OUTPUT_NODE] ) ) 





# 计算 在 当前 参数 下 神经 网 络 前 向 传播 的 结果 。 这 里 给 出 的 用 于 计算 滑动 平均 


的 类 为 None， 
# 所 以 函数 不 会 使 用 参数 的 滑动 平均 值 。 


y = inference(x, None, weights1i, biases1, weights2, biase 





# 定义 存储 训练 轮 数 的 变量 。 这 个 变量 不 需要 计算 滑动 平均 值 ， 所 以 这 里 指定 
这 个 变量 为 


# 不 可 训练 的 变量 (trainable=Fasle)。 在 使 用 TensorFIOw 训 练 神经 网 


络 时 ， 
# 一 般 会 将 代表 训练 轮 数 的 变量 指定 为 不 可 训练 的 参数 。 
global step = tf.Variable(0, trainable=False) 
ye # 给 定 滑动 平均 衰减 率 和 训练 轮 数 的 变量 ， 初 始 化 滑动 平均 类 。 在 第 4 章 中 介 
绍 过 给 


# 定 训练 轮 数 的 变量 可 以 加 快 训练 早期 变量 的 更 新 速度 。 
variable averages = tf.train.ExponentialMovingAverage( 


MOVING_ AVERAGE_DECAY, global_ step) 





# 在 所 有 代表 神经 网 络 参 数 的 变量 上 使 用 滑动 平均 。 其 他 辅助 变量 (比如 
global_step) 就 


# 不 需要 了 。 tf.trainable variables 返回 的 就 是 图 上 集合 


# GraphKeys.TRAINABLE_ VARIABLES 中 的 元 素 。 这 个 集合 的 元 素 就 是 所 
有 没有 指定 


# trainable=False 的 参数 。 
variables_averages op = variable averages.apply( 


tf.trainable variables()) 


# 计算 使 用 了 滑动 平均 之 后 的 前 向 传播 结果 。 第 4 章 中 介绍 过 滑动 平均 不 会 改 
变 变 量 本 身 的 


# 取 值 ， 而 是 会 维护 一 个 影子 变量 来 记录 其 滑动 平均 值 。 所 以 当 需 要 使 用 这 个 
滑动 平均 值 时 ， 


# 需要 明确 调用 average 函 数 。 





average y = inference( 


x, variable averages, weights1i, biases1i, weights2, bi 


# 计算 交 义 灶 作 为 刻画 预测 值 和 真实 值 之 间 差 距 的 损失 冰 数 。 这 里 使 用 了 


TensorFlow 中 提 


# 供 的 sparse_softmax_cross_entropy_with _ 1ogits 函 数 来 计算 交叉 


# 问题 只 有 一 个 正确 答案 时 ， 可 以 使 用 这 个 函数 来 加 速 交 叉 炉 的 计算 。MNIST 
问题 的 图 片 中 


# 只 包含 了 0~9 中 的 一 个 数字 ， 所 以 可 以 使 用 这 个 函数 来 计算 交叉 业 损 失 。 这 
个 函数 的 第 一 个 


pe 和 ， 第 二 个 是 训练 数据 的 
确 谷 条 。 因 大 


# 标准 答案 是 一 个 长 度 为 10 的 一 维 数组 ， 而 该 函数 需要 提供 的 是 一 个 正确 答 
案 的 数字 ， 所 以 需 


# 要 使 用 tf,argmax 函 数 来 得 到 正确 答案 对 应 的 类 别 编号 。 





cross_entropy = tf.nn.sparse softmax_cross_entropy_with_ 1 
y, tf.argmax(y_, 1)) 
# 计算 在 当前 batch 中 所 有 样 例 的 交叉 炳 平均 值 。 


cross_entropy_mean = tf.reduce_mean(cross_entropy ) 


# 计算 L2 正 则 化 损失 函数 。 
regularizer = tf,contrib. layers.12_regularizer(REGULARIZA 


# 计算 模型 的 正则 化 损失 。 一 般 只 计算 神经 网 络 边 上 权重 的 正则 化 损失 ， 而 不 
使 用 偏 置 项 。 


regularization = regularizer(weights1) + regularizer (weig 


# 总 损失 等 于 交 义 烂 损失 和 正则 化 损失 的 和 。 





loss = cross_entropy_mean + regularizaztion 
# 设置 指数 衰减 的 学 习 率 。 


learning_rate = tf.train.exponential decay( 


LEARNING_RATE_BASE, # 基础 的 学 习 率 ， 随 着 迭代 的 进行 ， 
更 新 变量 时 使 用 的 
# 学 习 率 在 这 个 基础 上 递减 。 
global step, # 当前 迭代 的 轮 数 。 
mnist.train.num_ examples / BATCH_SIZE, # 过 完 所 有 的 


训练 数据 需要 的 迭 


LEARNING_RATE_DECAY) # 学 习 率 衰减 速度 。 


# 使 用 tf ,train.GradientDescentOptimizer 优 化 算法 来 优化 损失 函数 。 注 
意 这 里 损失 函数 


# 包含 了 交叉 和 损 失 和 L2 正 则 化 损失 。 
train_step=tf.train.GradientDescentOptimizer(learning_rate)\ 


.minimize(loss, global step=global_ step) 


# 在 训练 神经 网 络 模型 时 ， 每 过 一 裔 数据 既 需 要 通过 反 向 传播 来 更 新 神经 网 络 中 的 


少 》 


# 又 要 更 新 每 一 个 参数 的 请 动 平均 值 。 为 了 一 次 完成 多 个 操作 ，TensorF1Low 提 供 


# tf,control dependencies 和 tf,group 两 种 机 制 。 下 面 两 行程 序 和 


# train op = tf.group(train step，variables_averages_op) 是 等 价 


with tf.control dependencies([train step, variables averages_ 


train_op = tf.no_op(name='train') 


# 检验 使 用 了 滑动 平均 模型 的 神经 网 络 前 向 传播 结果 是 否 正确 。 


tf.argmax(average y, 1) 


# 计算 每 一 个 样 例 的 预测 答案 。 其 中 average_y 是 一 个 batch_size * 10 的 三 维 
汝 细 ， 每 二 行 


# 表示 三 个 样 例 的 前 向 传播 结果 。tf .argmax 的 第 三 个 参数 “4 表示 选取 最 大 值 的 
WE 


# 个 维度 中 进行 ， 也 就 是 说 ， 只 在 每 一 行 选取 最 大 值 对 应 的 下 标 。 于 是 得 到 的 结 


是 一 个 长 度 为 


# batch 的 一 维 数 组 ， 这 个 一 维 数组 中 的 值 就 表示 了 每 一 个 样 例 对 应 的 数字 识别 结 
果 。tf.equal 


# 判断 两 个 张 量 的 每 一 维 是 否 相等 ， 如 果 相 等 返回 True， 否 则 返回 False。 














correct_ prediction = tf.equal(tf.argmax(average y, 1), tf.arg 


# 这 个 运算 首先 将 一 个 布尔 型 的 数值 转换 为 实数 型 ， 然 后 计算 平均 值 。 这 个 平均 值 
就 是 模型 在 这 


# 一 组 数据 上 的 正确 率 。 


accuracy = tf.reduce mean(tf.cast(correct prediction, tf.floa 


# 初始 化 会 话 并 开始 训练 过 程 。 


with tf.Session() as sess: 
tf.initialize all variables().run() 


pe # 准备 验证 数据 。 一 般 在 神经 网 络 的 训练 过 程 中 会 通过 验证 数据 来 大 致 判断 停 


# 条 件 和 评判 训练 的 效果 。 
validate feed = {x: mnist.validation.images, 


y_: mnist.validation. labels} 


# 准备 测试 数据 。 在 真实 的 应 用 中 ， 这 部 分 数据 在 训练 时 是 不 可 见 的 ， 这 个 数 
据 只 是 作为 模 


# 型 优 务 的 最 后 评价 标准 。 


test_feed = {x: mnist.test.images, y_: mnist.test.1labels} 


# 迭代 地 训练 神经 网 络 。 

for i in range(TRAINING_STEPS ) : 
# 每 1000 轮 输出 一 次 在 验证 数据 集 上 的 测试 结 
if i % 1000 == 0: 


# 计算 滑动 平均 模型 在 验证 数据 上 的 结果 。 因 为 MNIST 数 据 集 比较 小 ， 


所 以 一 次 

# 可 以 处 理 所 有 的 验证 数据 。 为 了 计算 方便 ， 本 样 例 程 序 没 有 将 验证 数 
据 划 分 为 更 
# 小 的 patch。 当 神经 网 络 模型 比较 复杂 或 者 验证 数据 比较 大 时 ， 太 大 
‘Jbatch 


# 会 导致 计算 时 间 过 长 甚至 发 生 内 存 溢出 的 错误 。 
validate acc = sess.run(accuracy, feed dict=val 


print("After %d training step(s), validation ac 


"using average model is %g " % (i, valid 


# 产生 这 一 轮 使 用 的 一 个 batch 的 训练 数据 ， 并 运行 训练 过 程 。 
xs, ys = mnist.train.next_batch(BATCH_SIZE) 


sess.run(train_ op, feed dict={x: xs, y_: ys}) 


# 在 训练 结束 之 后 ， 在 测试 数据 上 检测 神经 网 络 模型 的 最 终 正确 率 。 
test _ acc = sess.run(accuracy, feed dict=test feed) 
print("After %d training step(s), test accuracy using ave 


"model is %g" % (TRAINING STEPS, test_acc)) 


# 主 程序 入 口 。 
def main(argv=None): 
# 声明 处 理 MNIST 数 据 集 的 类 ， 这 个 类 在 初始 化 时 会 自动 下 载 数据 。 
mnist = Input _ data,read data sets("/tmp/data", one_hot=Tr 


train(mnist) 


# TensorFlow 提 供 的 一 个 主 程序 入 口 ，tf.app.run 会 调用 上 面 定义 的 main 函 


if name == ' main _': 


tf.app.run() 











运行 上 面 的 程序 ， 将 得 到 类 似 下 面 的 输出 结果 全 -: 


Extracting /tmp/data/train-images-idx3-ubyte.gz 


Extracting /tmp/data/train-labels-idx1i-ubyte.gz 


Extracting /tmp/data/t1i0k-images-idx3-ubyte.gz 


Extracting /tmp/data/t1i0k-labels-idx1i-ubyte.gz 


After © training step(s), validation accuracy on average mode 


After 


After 


After 


After 


After 


After 


After 


After 


After 





1000 training step(s), 
2000 training step(s), 
3000 training step(s), 


4000 training step(s), 


27000 


28000 


29000 


29999 


30000 


training step(s), validation 
training step(s), validation 
training step(s), validation 


training step(s), validation 


validation accuracy Using averag 
validation accuracy Using averag 
validation accuracy Using averag 


validation accuracy Using averag 


accuracy using avera 
accuracy using avera 
accuracy using avera 


accuracy using avera 


training step(s), test accuracy on average model 





ee 随 着 训练 的 进行 ， 模 型 在 验证 数据 集 上 的 表现 越 来 


越 好 。 从 第 4000 轮 开 


在 5.2 .1 小 节 给 出 了 使 用 神经 网 络 解决 MNIST 问 题 的 完整 程 月 
人 学 习 率 衰减 率 、 隐 藏 层 节 点 数量 











， 模 型 在 验证 数据 集 上 的 表现 开始 波动 ， 这 说 明 模型 已 经 接近 极 
小 值 了 ， 所 以 碗 人 代 记 就 厅 以 站 果 了 了 下 面 的 5.2 .2 小 节 将 详细 介绍 验证 数据 集 的 作用 。 


5.2.2 使 用 验证 数据 集 判 断 模型 效 来 









































这 些 参数 的 取 值 呢 ? 在 大 部 分 情况 下 ， 配 置 神经 网 络 的 这 些 
的 。 虽然 一 个 神经 网 络 模 型 的 效果 最 终 是 通过 测试 数据 来 评判 的 ， 但 是 我 们 不 能 直接 通 
过 模型 在 测试 数据 上 的 效果 来 选择 参数 。 使 用 测试 数据 来 选取 参数 可 能 会 导致 神经 网 络 模 





型 过 度 拟 合 测试 数据 ， 从 而 失去 对 未 知 数据 的 预 判 能 

















。 在 这 个 程序 的 开始 设置 了 


量 、 和 迭代 轮 数 等 7 种 不 同 的 参数 。 那 么 如 何 设 





“参数 都 是 需要 通过 实验 来 调 





力 。 因 为 一 个 神经 网 络 模型 的 最 终 目 








标 是 对 未 知 数据 提供 判断 ， 所 以 为 了 估计 模型 在 未 知 数据 上 的 效果 ， 需 要 保证 测试 数据 在 











训练 过 程 中 是 不 可 见 的 。 只 有 这 样 才能 保证 通过 测试 数据 评估 出 来 的 效果 和 在 真实 应 用 场 
景 下 模型 对 未 知 数据 预 判 的 效果 是 接近 的 。 于 是 ， 为 了 评测 神经 网 络 模型 在 不 同 参数 下 的 
效果 ， 一 般 会 从 训练 数据 中 抽取 一 部 分 作为 验证 数据 。 使 用 验证 数据 就 可 以 评判 不 同 参数 
取 值 下 模型 的 表现 。 除 了 使 用 验证 数据 集 ， 还 可 以 采用 交叉 验证 (cross 
validation) 的 方式 来 验证 模型 效果 。 但 因为 神经 网 络 训练 时 间 本 身 就 比较 长 ， 采 用 
cross validation 会 花费 大 量 时 间 。 所 以 在 海量 数据 的 情况 下 ， 一 般 会 更 多 地 采用 验 
证 数据 集 的 形式 来 评测 模型 的 效果 。 


在 本 小 节 中 ， 为 了 说 明 验 证 数据 在 一 定 程度 上 可 以 作为 模型 效果 的 评判 标准 ， 我 们 将 对 比 
在 不 同 迭 代 轮 数 的 情况 下 ， 模 型 在 验证 数据 和 测试 数据 上 的 正确 率 。 为 了 同时 得 到 同一 个 
模型 在 验证 数据 和 测试 数据 上 的 正确 率 ， 可 以 在 每 1000 轮 的 输出 中 加 入 在 测试 数据 集 上 
的 正确 率 。 在 5.2.1 小 节 给 出 的 代码 中 加 入 以 下 代码 ， 就 可 以 得 到 每 1006 轮 迭代 后 ， 使 
用 了 滑动 平均 的 模型 在 验证 数据 和 测试 数据 上 的 正确 率 。 




















































































































# 计算 滑动 平均 模型 在 测试 数据 和 验证 数据 上 的 正确 率 。 

validate acc = sess.run(accuracy, feed dict=validate feed 

test_acc = sess.run(accuracy, feed dict=test_ feed) 

# 输出 正确 率 信 息 。 

print("After %d training step(s), validation accuracy usi 
"model is %g, test accuracy using average model is 


(i, validate acc, test _acc)) 














图 5-2 给 出 了 通过 上 面 代码 得 到 的 每 7000 轮 滑动 平均 模型 在 不 同 数据 集 上 的 正确 率 曲 
线 。 图 5-2 中 灰色 的 曲线 表示 随 着 迭代 轮 数 的 增加 ， 模 型 在 验证 数据 上 的 正确 率 ; 到 
的 曲线 表示 了 在 济 试 数据 上 的 正确 率 。 从 图 5-2 中 可 以 看 出 ， 虽 然 这 两 条 曲线 不 会 完全 重 
合 ， 但 是 这 两 条 曲线 的 趋势 基本 一 而 且 他 们 的 相关 系数 (correlation 
coefficient) 大 于 0.9999。 这 意味 着 在 MNIST 问 题 上 ， 完全 可 以 通过 模型 在 验证 数 
据 上 的 表现 来 判断 一 个 模型 的 优 劣 。 

































































和 











0.986 





验证 数据 集 上 正确 率 





0.984 
0.982 
树 0.98 
证 
用 
0.978 
0.976 
0.974 
Sr 
S S S OS S S S SO 人 S S 
O SN O O O \S) S 今 O S O 
TN 
运 代 轮 数 

















图 5-2 不 同 迭 代 轮 数 下 滑动 平均 模型 在 验证 数 志 








TH 


集 和 测试 数据 集 上 的 正确 率 














测试 数据 集 上 正确 率 





当然 ， 以 上 结论 是 针对 MNIST 这 个 数据 集 的 ， 对 于 其 他 问题 ， 还 需要 具体 问题 具体 分 析 。 
不 同 问题 的 数据 分 布 不 一 样 ， 如 果 验 证 数据 分 布 不 能 很 好 地 代表 测试 数据 分 布 ， 那么 模型 
在 这 两 个 数据 集 上 的 表现 就 有 可 能 不 一 样 。 所 以 ， 验 证 数据 的 选取 方法 是 非常 重要 的 ， 
般 来 说 选取 的 验证 数据 分 布 越 接 近 测 试 数据 分 布 ， ee ee gas 


























型 在 测试 数据 上 的 表现 。 但 通过 本 小 节 中 介绍 的 实验 ， 至 少 可 
数据 上 的 效果 来 选取 模型 的 参数 是 一 个 可 行 的 方案 。 


5.2.3 不 同 模型 效果 比较 


以 说 明 通 过 神经 网 络 在 验证 

















本 小 节 将 通过 MNIST 数 据 集 来 比较 第 4 章 中 提 到 的 不 同 优化 方法 对 神经 网 络 模型 正确 率 的 


影响 。 本 小 节 将 使 用 神经 网 络 模型 在 MNIST 测 试 数 据 集 上 的 正确 率 作为 评价 不 同 优化 方法 





























的 标准 。 在 本 小 节 中 一 个 模型 在 MNIST 测 试 数据 集 上 的 正确 率 ; 




















和 简称 为 “正确 率 “。 在 第 4 








章 中 提 到 了 设计 神经 网 络 时 的 5 种 优化 方法 。 在 神经 网 络 结构 的 设计 上 ， 需 要 使 用 激活 函 


数 和 多 层 隐藏 层 。 在 神经 网 络 优化 时 ， 可 以 使 用 指数 衰减 的 学 





习 率 、 加 入 正则 化 的 损失 函 


数 以 及 滑动 平均 模型 。 在 图 5-3 中 ， 给 出 了 在 相同 神经 网 络 参数 下 号 -， 使 用 不 同 优化 方 








法 ， 经 过 30000 轮 训练 迭代 后 ， 得 到 的 最 终 模 型 的 正确 率 饼 -。 














图 5-3 给 出 的 结果 中 包含 








了 使 用 所 有 优化 方法 训练 得 到 的 模型 和 不 用 其 中 茶 一 项 优化 方法 训练 得 到 的 模型 。 通 过 这 














种 方式 ， 可 以 有 效 验 证 每 一 项 优化 方法 的 效果 。 
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使 用 所 有 优化 不 用 滑动 平均 不 用 正则 化 不 用 指数 衰减 学 习 率 不 用 隐藏 层 不 用 激活 函数 











图 5-3 不 同 模型 的 正确 率 


从 图 5-3 中 可 以 很 明显 地 看 出 ， 调 整 神经 网 络 的 结构 对 最 终 的 正确 率 有 非常 大 的 影响 。 没 
有 隐藏 层 或 者 没有 激活 函数 时 ， 模 型 的 正确 率 只 有 大 约 92 .6%， 这 个 数字 要 远 远 小 于 使 用 
了 隐藏 层 和 激活 函数 时 可 以 达到 的 大 约 98 .4% 的 正确 率 。 这 说 明神 经 网 络 的 结构 对 最 终 模 
型 的 效果 有 本 质 性 的 影响 。 第 6 章 将 会 介绍 一 种 更 加 特殊 的 神经 网 络 结构 一 卷 积 神经 网 
络 。 卷 积 神经 网 络 可 以 更 加 有 效 地 处 理 图 像 信 息 。 通 过 卷 积 神经 网 络 ， 可 以 进一步 将 正确 
率 提高 到 大 约 99 .5%。 


从 图 5-3 上 的 数字 中 可 发 现 使 用 滑动 平均 模型 、 指 数 衰减 的 学 习 率 和 使 用 正则 化 带 来 的 正 
确 率 的 提升 并 不 是 特别 明显 。 其 中 使 用 了 所 有 优化 算法 的 模型 和 不 使 用 滑动 平均 的 模型 以 
及 不 使 用 指数 衰减 的 学 习 率 的 模型 都 可 以 达到 大 约 98 .4% 的 正确 率 。 这 是 因为 滑动 平均 模 
型 和 指数 衰减 的 学 习 率 在 一 定 程度 上 都 是 限制 神经 网 络 中 参数 更 新 的 速度 ， 然 而 在 MNIST 
数据 上 ， 因 为 模型 收敛 的 速度 很 快 ， 所 以 这 两 种 优化 对 最 终 模型 的 影响 不 大 。 从 图 5-2 中 
可 以 看 到 ， 当 模型 友 代 到 4000 轮 时 正确 率 就 已 经 接近 最 终 的 正确 率 了 。 而 在 欠 代 的 早 
期 ， 是 否 使 用 滑动 平均 模型 或 者 指数 衰减 的 学 习 率 对 训练 结果 的 影响 相对 较 小 。 图 5-4 显 
示 了 不 同 迭 代 轮 数 时 ， 使 用 了 所 有 优化 方法 的 模型 的 正确 率 与 平均 绝对 梯度 甸 - 的 变化 趋 
势 。 图 5-5 显 示 了 不 同 迭 代 轮 数 时 ， 正 确 率 与 衰减 之 后 的 学 习 率 的 变化 趋势 。 
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图 5-4 使 用 了 所 有 优化 方法 的 模型 正确 率 与 平均 绝 度 梯度 在 不 同 迭 代 轮 数 时 的 变化 趋势 
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图 5-5 使 用 了 所 有 优化 方法 的 模型 的 正确 率 与 学 习 率 在 不 同 迭 代 轮 数 时 的 变化 趋势 


从 图 5-4 中 可 以 看 到 ， 前 4000 轮 迄 代 对 模型 的 改变 是 最 大 的 。 在 4000 轮 之 后 ， 因 为 梯度 
本 身 比较 小 ， 所 以 参数 的 改变 也 就 比较 缓慢 了 。 于 是 滑动 平均 模型 或 者 指数 衰减 的 学 习 率 
的 作用 也 就 没有 那么 突出 了 。 从 图 5-5 中 可 以 看 到 ， 学 习 率 曲线 呈现 出 阶梯 状 衰减 ， 在 前 
4000 轮 时 ， 衰 减 之 后 的 学 习 率 和 最 初 的 学 习 率 差距 并 不 大 。 那 么 ， 这 是 否 能 说 明 这 些 优 
化 方法 作用 不 大 呢 ? 答案 是 否定 的 。 当 问题 更 加 复杂 时 ， 和 迭代 不 会 这 么 快 接近 收 信 ， 这 时 
滑动 平均 模型 和 指数 衰减 的 学 习 率 可 以 发 挥 更 大 的 作用 。 比 如 在 Cifar-10 图 像 分 类 数据 
和 0 0 
件 1 代 7%。 

相 比 滑动 平均 模型 和 指数 衰减 学 习 率 ， 使 用 加 入 正则 化 的 损失 函数 给 模型 效果 带 来 的 提升 


要 相对 显著 。 使 用 了 正则 化 损失 函数 的 神经 网 络 模型 可 以 降低 大 约 6% 的 错误 率 〈 从 
1.69% 降 低 到 1.,.59%) 。 图 5-6 和 图 5-7 显 示 了 正则 化 给 模型 优化 过 程 带 来 的 影响 。 图 5 - 


















































6 和 图 5-7 对 比 了 两 个 使 用 了 不 同 损 失 函 数 的 神经 网 络 模 型 。 一 个 模型 只 最 小 化 交叉 炳 损 
失 ， 以 下 代码 给 出 了 只 优化 交叉 焙 模 型 的 模型 优化 函数 的 声明 语句 。 








train_step = tf.train.GradientDescentOptimizer(learning_rate) 


.minimize(cross_ entropy mean, global step=g 





2 2 正则 化 损失 的 和 。 以 下 代码 给 出 了 这 个 模型 优化 函数 的 
声明 语句 。 


loss = cross_entropy_mean + regularaztion 
train_step = tf.train.GradientDescentOptimizer (learning_rate) 


.minimize(loss, global step=global step) 














在 图 5-6 中 灰色 和 黑色 的 实 线 给 出 了 两 个 模型 正确 率 的 变化 趋势 ， 虚 线 给 出 了 在 当前 训练 
batch 上 的 交叉 焙 损 失 。 
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图 5-6 不 同 模型 在 不 同 迭 代 轮 数 时 交叉 炉 和 正确 率 的 关系 


从 图 5-6 中 可 以 看 出 ， 只 优化 交叉 灶 的 模型 在 训练 数据 上 的 交叉 业 损 失 《〈《 灰 色 虚 线 ) 要 比 
优化 总 损失 的 模型 更 小 《黑色 虚线 ) 。 然 而 在 测试 数据 上 ， 优 化 总 损失 的 模型 (黑色 实 

线 ) 却 要 好 于 只 优化 交叉 炳 的 模型 (灰色 实 线 ) 。 这 个 原因 就 是 第 4 章 中 介绍 的 过 拟 合 问 
题 。 只 优化 交叉 焙 的 模型 可 以 更 好 地 拟 合 训练 数据 (交叉 糖 损失 更 小 ) ， 但 是 却 不 能 很 好 
地 挖掘 数据 中 潜在 的 规律 来 判断 未 知 的 测试 数据 ， 所 以 在 测试 数据 上 的 正确 率 低 。 


图 5-7 显 示 了 不 同 模型 的 损失 函数 的 变化 趋势 。 图 5-7 的 左 侧 显 示 了 只 优化 交叉 焙 的 模型 
损失 函数 的 变化 规律 。 可 以 看 到 随 着 碗 代 的 进行 ， 正 则 化 损失 是 在 不 断 加 大 的 。 因 为 
MNIST 问 题 相对 比较 简单 ， 壕 代 后 期 的 梯度 很 小 (参考 图 5-4) ， 所 以 正则 化 损失 的 增长 
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也 不 快 。 如 果 问 题 更 加 复杂 ， 和 迭代 后 期 的 梯度 更 大 ， 





则 化 损失 ) 会 呈现 出 一 个 U 字 型 。 在 图 
5-7 中 可 以 看 出 ， 





变化 规律 。 从 图 
越 小 ， 从 而 使 得 








总 的 来 说 ， 通 过 MNIST 数 据 集 有 效 地 验 订 
由 于 MNIST 问 题 本 身 相 对 简单 ， 滑 动 平 均 模型 、 
外 率 的 提升 效果 不 明显 。 但 通过 进一步 分 析 实 验 的 结果 ， 可 以 得 出 这 些 优化 方法 确 
和 4 章 中 提 到 的 神经 网 络 优化 过 程 中 的 问题 。 当 需要 解决 的 问题 和 使 用 到 的 神 





飞跃 。 
最 终 正 帮 
实 可 以 解决 第 























让 





则 化 损 








j 化 模型 


不 使 用 正则 化 模型 








区 











总 损失 


5-7 正则 化 损失 值 和 总 损失 的 变 
FE 了 激活 函数 、 











就 会 发 现 总 损失 交叉 炳 损失 加 上 下 


























则 化 模型 





中 jj 下 上 


正则 化 损失 ”一 一 总 损失 








化 趋势 











5-7 的 右 侧 ， 显 示 了 优化 总 损失 的 模型 损失 函数 的 
这 个 模型 的 正则 化 损失 部 分 也 可 以 随 着 迭代 的 进行 越 来 
寻 整体 的 损失 呈现 一 个 逐步 递减 的 趋势 。 





隐藏 层 可 以 给 模型 的 效果 带 来 质 的 
指数 衰减 的 学 习 率 和 正则 化 损失 对 
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经 网 络 模型 更 加 复杂 时 ， 这 些 优化 方法 将 更 有 可 能 对 训练 效果 产生 更 大 的 影响 。 


5.3 变量 管 


在 5.2.1 小 节 中 将 计算 神经 网 络 前 向 传播 结果 的 过 程 抽象 成 了 一 个 函数 。 通 过 这 种 方式 在 
Un i 在 5.2.1 小 节 





def inference(input_tensor, 
































avg_class, weights1, biases1i, wei 


从 定义 中 可 以 看 到 ， 这 个 函数 的 参数 中 包括 了 神经 网 络 中 的 所 有 参数 。 然 而 ， 当 神经 网 络 





的 结构 更 加 复杂 、 





参数 更 多 时 ， 就 需要 一 个 更 好 的 方式 来 传递 和 管理 # 














了 。TensorFlow 提 供 








了 通过 变量 名 称 来 创建 或 者 获取 一 个 变量 





在 不 同 的 函数 中 可 以 直接 通过 变量 的 名 字 来 使 用 变量 ， 而 不 需要 将 
处 传递 。TensorF1Low 中 通过 变量 名 称 获取 变量 




















申 经 网 络 中 的 参数 





- 旦 . 


里 





的 机 制 。 

















通过 这 个 机 第 





|， 








变量 通 


























tf,.vVariable_scope 函 数 实现 的 。 下 面 将 分 别 介 


第 4 章 介 
TensorFlow 还 提供 














tf.get_ a 
过 这 两 个 函数 创建 同一 个 变量 的 样 例 。 


码 给 出 了 通 





介绍 了 通过 tf .Variable 函 数 来 创建 
了 tf.get_ variab1le 函 数 来 创建 或 者 获取 变 
量 时 ， 它 和 tf.Variab1le 的 功 





的 机 种 








| 主要 是 通过 
绍 如 何 使 用 这 两 个 函数 。 





上 肝 





个 变量 














量 。 
里 








台 已 上 下 
月 起 





当 
基本 等 价 的 。 


过 参数 的 形式 到 


tf.get_variable 和 


除了 tf.Variab1le 函 数 ， 


以 下 代 


# 下 面 这 两 个 定义 是 等 价 的 。 


v = tf.get variable("v"，shape=[1]， 


initializer= 


v = tf.Variable(tf.constant(1.0, sh 


从 上 面 的 代码 中 可 以 看 出 ， 通过 tf ,Variable 和 tf. 











tf.constant_ initializer(1 


ape=[1]), name="Vv") 








get_variable 函 数 创建 变量 的 过 











程 基本 上 是 一 样 的 。tf ,get_variab1le 函 数 调用 时 提供 的 维度 (shape) 信息 以 及 初始 
化 方法 (initializer) 的 参数 和 tf.Variab1le 函 数 调用 时 提供 的 初始 化 过 程 中 的 参 
数 也 类 似 。TensorFlow 中 提供 的 jnitializer 函 数 和 3.4.3 小 节 中 介绍 的 随机 数 以 及 























常量 生成 函数 大 部 分 是 一 一 对 应 的 。 比 如 ， 在 上 面 的 检 























EF 例 程序 中 使 用 到 的 常数 初始 化 函数 








tf.constant_initializer 和 常数 生成 函数 tf .constant 功 能 上 就 是 一 致 的 。 

















TensorF1ow 提 供 了 7 种 不 同 的 初始 化 函数 ， 表 5-2 总 











结 了 它们 的 功能 和 主要 参数 。 


表 5-2 TensorFlow 中 的 变量 初始 化 函数 








初始 化 函数 
tf.constant initializer 


tf.random normal initializer 


tf.truncated normal initializer 


tf.random_ uniform initializer 


tf.uniform unit_scaling_initializer 





将 变量 初始 ”常量 的 取 值 
化 为 给 定常 




















将 变量 初始 ” 正 态 分 布 的 均值 
化 为 满足 正 态 和 标准 差 
分 布 的 随机 
值 
将 变量 初始 ” 正 态 分 布 的 均值 
化 为 满足 正 态 和 标准 差 
分 布 的 随机 
值 ， 但 如 果 随 
机 出 来 的 值 偏 
离 平 均值 超过 
2 个 标准 差 ， 
那么 这 个 数 将 
会 被 重新 随 
机 
将 变量 初始 最 大 、 最 小 
化 为 满足 平均 值 
分 布 的 随机 
值 
将 变量 初始 ” factor (产生 
化 为 满足 平均 随机 值 时 乘 以 的 系 
分 布 但 不 影响 数 ) 














输出 数量 级 的 

















随机 值 
tf.zeros initializer 将 变量 设置 ”变量 维度 
为 全 6 
tf.ones initializer 将 变量 设置 ”变量 维度 
为 全 1 
tf,get_variable 函 数 与 tf,Variable 函 数 最 大 的 区 别 在 于 指定 变量 名 称 的 参数 。 对 














于 tf.Variable 函 数 ， 变 量 名 称 是 一 个 可 选 的 参数 ， Rn 但 是 
对 于 tf ,get_variab1le 函 数 ， 变 量 名 称 是 一 个 必 填 的 参数 。tf ,get_variab1e 会 根据 
这 个 名 字 去 创建 或 者 获取 变量 。 在 上 面 的 样 例 程序 中 ，tf.get_variab1le 首 先 会 试图 去 
创建 一 个 名 字 为 v 的 参数 ， 如 果 创 建 失败 (比如 已 经 有 同名 的 参数 ) ， 那么 这 个 程序 就 会 
报错 。 这 是 为 了 避免 无 意识 的 变量 复 用 造成 的 错误 。 比如 在 定义 神经 网 络 参数 时 ， 第 一 层 
网 络 的 权重 已 经 叫 weights 了 ， 那 么 在 创建 第 二 层 神经 网 络 时 ， 如 果 参 数 名 仍然 叫 

weights， 就 会 触发 变 昌 量 重用 的 错误 。 和 否则 两 层 神 经 网 络 共 用 一 个 权重 会 出 现 一 些 比较 
难以 发 现 的 错误 。 如 果 需 要 通过 tf .get_variable 获 取 一 -个 已 经 创建 的 变量 量 ， 需 要 通过 
tf.variable_scope 函 数 来 生成 一 个 上 下 文 管理 器 ， 并 明确 指定 在 这 个 上 下 文 管理 器 
中 ，tf .get_ variable 将 直接 获取 己 经 生成 的 变量 。 下 面 给 出 了 一 段 代 码 说 明 如 何 通关 
tf,.variable_scope 函 数 来 控制 tf ,get_variable 函 数 获取 已 经 创建 过 的 变量 。 









































































































































这 

















# 在 名 字 为 foo 的 命名 空间 内 创建 名 字 为 v 的 变量 。 
with tf.variable scope("foo"): 
v = tf.get variable( 


"v", [1], initializer=tf.constant_initializer(1.0)) 


# 因为 在 命名 空间 foo 中 已 经 存在 名 字 为 v 的 变量 ， 所 有 下 面 的 代码 将 会 报错 : 

# Variable foo/v already exists, disallowed. Did you mean to 
# in VarScope? 

with tf.variable scope("foo"): 


v = tf.get variable("v", [1]) 


# 在 生成 上 下 文 管理 器 时 ， 将 参数 reuse 设 置 为 True。 这 样 tf.get_variab1le 函 
数 将 直接 获取 


# 已 经 声明 的 变量 。 
with tf.variable scope("foo", reuse=True): 
v1i = tf.get variable("v", [1]) 


print v == v1 # 输出 为 True， 代 表 v，v1i 代 表 的 是 相同 的 
TensorFlow 中 变量 。 





# 将 参数 reuse 设置 为 True 时 ，tf.,variable_scope 将 只 能 获取 已 经 创建 过 的 


# 命名 空间 bar 中 还 没有 创建 变量 v， 所 以 下 面 的 代码 将 会 报错 : 

# Variable bar/v does not exist, disallowed. Did you mean to 
# in VarScope? 

with tf.variable scope("bar", reuse=True): 


Vv = tf.get variable("v", [1]) 


上 面 的 样 例 简单 地 说 明了 通过 tf ,variable_scope 函 数 可 以 控制 tf.get_variable 
沙 数 的 语义 。 当 tf ,variable_scope 函 数 使 用 参数 reuse= True 生成 上 下 文 管理 器 
时 ， 这 个 上 下 文 管理 器 内 所 有 的 tf.get_variab1le 函 数 会 直接 获取 已 经 创建 的 变量 。 如 

果 变 量 不 存在 ， 则 tf .get_variab1le 函 数 将 报错 相反， 如果 tf .Variable_scope 
函数 使 用 参数 reuse=None 或 者 reuse=False 创 建 上 下 文 管理 器 ，tf.,get_variab1le 
操作 将 创建 新 的 变量 。 如 果 同 名 的 变量 已 经 存在 ， 则 tf.get_variab1le 函 数 将 报错 。 
TensorF1low 中 tf,variable_scope 函 数 是 可 以 肉 套 的 。 下 面 的 程序 说 明了 当 
tf.variable scope 函数 符 套 时 ，reuse 参 数 的 取 值 是 如 何 确 定 的 。 






































































































































with tf.variable scope("root"): 


# 可 以 通过 tf.get_variable _scope().reuse 函 数 来 获取 当前 上 下 文 管 
理 器 中 reuse 参 


# 数 的 取 值 。 

print tf.get variable scope().reuse # 输出 False， 即 最 外 
层 reuse 是 False。 

with tf.variable scope("foo", reuse=True): # 新 建 一 个 所 


套 的 上 下 文 管理 器 ， 


# 并 指定 Feuse 为 True。 


print tf.get _ variable scope().reuse # 输出 
True。 





with tf.variable scope("bar"): # 新 建 一 个 
般 套 的 上 下 文 管理 器 但 





# 不 指定 reuse， 这 时 reuse 


天 了 
取 值 会 和 外 面 一 层 保持 一 致 。 
print tf.get _ variable_ scope().reuse # 输出 
True。 
print tf.get Variable scope().reuse # 输出 
False。 退 出 reuse 设 置 
# 为 True 的 上 下 文 之 后 
# Tr 


的 值 又 回 到 了 False。 




















_Sscope 函 数 生 成 的 上 下 文 管理 器 也 会 创建 一 个 TensorF1Low 中 的 命名 衬 

， 在 命名 空间 内 创建 的 变量 名 称 都 会 带 上 这 个 命名 空间 名 作为 前 级 。 所 以 ， 
tf,variable scope 函 数 除 了 可 以 人 制 tf,get_variable 执 行 的 功能 之 外 ， 这 个 函 
数 也 提供 了 一 个 管理 变量 命名 2 空间 的 方式 ， 以 下 代码 显示 了 如 何 通过 
tf.variable_scope 来 管理 变量 的 名 称 

















































































































v1 = tf.get variable("v", [1]) 


print vi.name # 输出 V:0。“V” 为 变量 的 名 称 ，“:0” 表 示 这 个 变量 
是 生成 变量 这 个 运算 
# 的 第 一 个 结 


with tf.variable scope("foo"): 
v2 = tf.get variable("v", [1]) 


print v2.name # 输出 foo/v:0。 在 tf.variable_scope 中 创建 的 


ih 


v6 = tf.get variable("foo/vi", [1]) 
print v6 == v4 # 输出 
True。 


通过 tf.variable_scope 和 tf,get_variable 函 数 ， 以 下 代码 对 5.2.1 小 节 中 定义 
的 计算 前 向 传播 结果 的 函数 做 了 一 些 改进 。 











def inference(input_tensor, reuse=False): 


# 定义 第 一 层 神经 网 络 的 变量 和 前 向 传播 过 程 。 








with tf.variable scope('layer1', reuse=reuse): 


# 根据 传 进来 的 reuse 来 判断 是 创建 新 变量 还 是 使 用 已 经 创建 好 的 。 在 
第 一 次 构造 网 





# 络 时 需要 创建 新 的 变量 ， 以 后 每 次 调用 这 个 函数 都 直接 使 用 


reuse=True 就 不 需 
# 要 每 次 将 变量 传 进来 了 。 
weights = tf.get_variable("weights"，[INPUT_NODE，LAY 
Initializer=tf.truncated normal initializer(stdde 
biases = tf.get variable("biases", [LAYER1_ NODE], 
initializer=tf.constant_initializer(0.0)) 


layer1 = tf.nn.relu(tf.matmul(input_ tensor, weights) 








# 类 似 地 定义 第 三 层 神 经 网 络 的 变量 和 前 向 传播 过 程 。 
with tf.variable scope('layer2', reuse=reuse): 
weights = tf.get variable("weights", [LAYER1 NODE, OU 
initializer=tf.truncated normal initializer(stdde 
biases = tf.get variable("biases", [OUTPUT_NODE], 


initializer=tf.constant_initializer(0.0)) 


layer2 = tf.matmul(layer1, weights) + biases 
# 返回 最 后 的 前 向 传播 结果 。 


return layer2 


x = tf.placeholder(tf.float32, [None, INPUT_NODE], name='x- 
Input ) 


y = inference(x) 


# 在 程序 中 需要 使 用 训练 好 的 神经 网 络 进行 推导 时 ， 可 以 直接 调用 


inference(new x, True). 


# 如 果 需 要 使 用 滑动 平均 模型 可 以 参考 5.2.1 小 节 中 使 用 的 代码 ， 把 计算 滑动 平均 
的 类 传 到 


# Inference 函 数 中 即 可 。 获 取 或 者 创建 变量 的 部 分 不 需要 改变 。 








mew X= ... 


new_y = inference(new x, True) 








使 用 上 面 这 段 代码 所 示 的 方式 ， 就 不 再 需要 将 所 有 变量 都 作为 参数 传递 到 不 同 的 函数 中 
由 3 参数 更 多 时 ， 使 用 这 种 变量 管理 的 方式 将 大 大 提高 程序 的 
可 读 性 。 


5.4 TensorFlow 模 型 持久 化 


在 5.2.1 小 节 中 给 出 的 样 例 代码 在 训练 完成 之 后 就 直接 退出 了 ， 并 没有 将 训练 得 到 的 模型 
保存 下 来 方便 下 次 直接 使 用 。 为 了 让 训练 结果 可 以 复 用 ， 需 要 将 训练 得 到 的 神经 网 络 模型 
持久 化 。5.4.1 小 节 将 介绍 通过 TensorFlow 程 序 来 持久 化 一 个 训练 好 的 模型 ， 并 从 持久 
化 之 后 的 模型 文件 中 还 原 被 保存 的 模型 。 然 后 5 .4.2 小 节 将 介绍 TensorFlow 持 久 化 的 工 
作 原 理 和 持久 化 之 后 文件 中 的 数据 格式 。 


5.4.1 持久 化 代码 实现 


TensorFlow 提 供 了 一 个 非常 简单 的 API 来 保存 和 还 原 一 个 神经 网 络 模 型 。 这 个 API 就 是 
tf,train.Saver 类 。 以 下 代码 给 出 了 保存 TensorFlow 计 算 图 的 方法 。 









































































































































import tensorflow as tf 


# 声明 两 个 变量 并 计算 它们 的 和 。 


v1 = tf.Variable(tf.constant(1.0, shape= 


v2 = tf.Variable(tf.constant(2.0, shape= 


result = vi + v2 


init_op = tf.initialize all variables() 
# 声明 tf.train.Saver 类 用 于 保存 模型 。 


Saver = tf.train.Saver() 


with tf.Session() as sess: 


sess.run(init_op) 


[1]1), name="v1") 


[1]1), name="v2") 


# 将 模型 保存 到 /path/to/model/model.ckpt 文 件 。 


saver.save(sess, "/path/to/model/model.ckpt") 


上 面 的 代码 实现 了 持久 化 一 个 简单 的 TensorFlow 模 型 的 功能 





。 在 这 段 代 码 中 ， 通 过 


Saver . save 函数 将 TensorFlow 模 型 保存 到 1 了 /path/to/model/model.ckpt 文 件 





中 。TensorFlow 模 型 一 般 会 存在 后 级 为 .ckpt 的 文件 中 。 











虽然 上 面 的 程序 只 指定 了 一 个 











文件 路 径 ， 但 是 在 这 个 文件 目录 下 会 出 现 三 个 文件 。 这 是 因为 TensorFLow 会 将 计算 图 的 








结构 和 图 上 参数 取 值 分 开 保存 。 





上 面 这 段 代码 会 生成 的 第 一 个 文件 为 nodel.ckpt .meta， 它 保存 了 TensorFlow 计 算 图 












































的 结构 。 第 3 章 中 介绍 过 TensorFlow 计 算 图 的 原理 ， 这 里 可 以 简单 理解 为 神经 网 络 的 网 








络 结构 。 第 二 个 文件 为 mode1l. ckpt， 这 个 文件 中 保存 了 TensorFlow 程 序 中 每 一 个 变量 














的 取 值 。 最 后 一 个 文件 为 checkpoint 文 件 ， 这 个 文件 中 保存 了 一 个 目录 下 所 有 的 模型 广 





件 列表 。 对 这 些 文件 中 的 具体 内 容 ，5 .4.2 小 节 中 将 详细 讲述 
个 已 经 保存 的 TensorFLow 模 型 的 方法 。 





Import tensorflow as tf 





Y。 以 下 代码 中 给 出 了 加 载 这 





# 使 用 和 保存 模型 代码 中 一 样 的 方式 来 声明 变量 。 
v1i = tf.Variable(tf.constant(1.0, shape=[1]), name="v1") 
v2 = tf.Variable(tf.constant(2.0, shape=[1]), name="v2") 


result = vi + v2 


saver = tf.train.Saver() 


with tf.Session() as sess: 
# 加 载 已 经 保存 的 模型 ， 并 通过 已 经 保存 的 模型 中 变量 的 值 来 计算 加 法 。 
saver.restore(sess, "/path/to/model/model.ckpt") 


print sess.run(result) 





这 上段 加 载 模 型 的 代码 基本 上 和 保存 模型 的 代码 是 一 样 的 。 在 加 载 模型 的 程序 中 也 是 先 定义 
了 TensorFlow 计 算 图 上 的 所 有 运算 ， 并 声明 了 一 个 tf.train.Saver 类 。 两 段 代码 唯 
一 不 同 的 是 ， 在 加 载 模 型 的 代码 中 没有 运行 变量 的 初始 化 过 程 ， 而 是 将 变量 的 值 通过 已 经 
保存 的 模型 加 载 进来 。 如 果 不 希望 重复 定义 图 上 的 运算 ， 也 可 以 直接 加 载 已 经 持久 化 的 

图 。 以 下 代码 给 出 了 一 个 样 例 。 












































Import tensorflow as tf 

# 直接 加 载 持久 化 的 图 。 

saver = tf.train.import_ meta graph( 
"/path/to/model/model.ckpt/model.ckpt .meta") 

with tf.Session() as sess: 
saver.restore(sess, "/path/to/model/model.ckpt") 
# 通过 张 量 的 名 称 来 获取 张 量 。 


print sess.run(tf.get _ default_graph().get_ tensor_by_namel( 


# 输出 [ 3.] 





在 上 面 给 出 的 程序 中 ， 默 认 保存 和 加 载 了 TensorF1ow 计 算 图 上 定义 的 全 部 变量 。 但 有 时 
可 能 只 需要 保存 或 者 加 载 部 分 变量 。 比 如 ， 可 能 有 一 个 之 前 训练 好 的 五 层 神经 网 络 模型 ， 
但 现在 想 尝试 一 个 六 层 的 神经 网 络 ， 那 么 可 以 将 前 面 五 层 神经 网 络 中 的 参数 直接 加 载 到 新 
的 模型 ， 而 仅仅 将 最 后 一 层 神经 网 络 重新 训练 。 


为 了 保存 或 者 加 载 部 分 变量 ， 在 声明 tf.train.Saver 类 时 可 以 提供 个 列表 来 指定 需 
要 保存 或 者 加 载 的 变量 。 比 如 在 加 载 模型 的 代码 中 使 用 saver 
tf.train.Saver([v1]) 命 令 来 构建 tf.train.Saver 类 ， 那 么 A 量 V1 会 被 加 载 
进来 。 如 果 运 行 修改 后 只 加 载 了 v1 的 代码 会 得 到 变量 未 初始 化 的 错误 





































































































tensorflow.python.framework.errors.FailedPreconditionError: A 





因为 v2 没有 被 加 载 ， 所 以 v2 在 运行 初始 化 之 前 是 没有 值 的 。 除 了 可 以 选取 需要 被 加 载 的 
变量 ，tf .train.Saver 类 也 支持 在 保存 或 者 加 载 时 给 变量 重 命 名 。 下 面 给 出 了 一 个 简 
单 的 样 例 程 序 说 明 变 量 重 命名 是 如 何 被 使 用 的 。 



































# 这 里 声明 的 变量 名 称 和 已 经 保存 的 模型 中 变量 的 名 称 不 同 。 


v1 = tf.Variable(tf.constant(1.0, shape=[1]), name="other- 
v1") 


v2 = tf.Variable(tf.constant(2.0, shape=[1]), name="other- 


# 如 果 直 接 使 用 tf .train.Saver( ) 来 加 载 模 型 会 报 变 量 找 不 到 的 错误 。 下 面 显 
示 了 报错 信息 : 


# tensorflow.python.framework.errors.NotFoundError: Tensor na 
V2" 


# not found in checkpoint files /path/to/model/model.ckpt 


# 使 用 一 个 字典 (dictionary ) 来 重 命 名 变量 可 以 就 可 以 加 载 原来 的 模型 了 。 这 个 
字典 指定 了 


# 原来 名 称 为 v1 的 变量 现在 加 载 到 变量 v1 中 (名 称 为 other-v1i)， 名 称 为 v2 的 变 


wl 


# 加 载 到 变量 v2 中 (名 称 为 other-v2)。 


saverD em 


在 这 个 程序 中 ， 对 变量 


rain.Saver({"vi": vi, "v2": v2}) 


EV1 和 v2 的 名 称 进 行 了 修改 。 如 果 直 接 通 过 tf .train.Saver! 








默认 


的 构造 函数 来 加 载 保存 的 模型 ， 那 么 程序 会 报 变量 找 不 到 的 错误 。 1 的 名 


称 和 加 载 时 变量 的 名 和 和 











尔 不 一 致 。 为 了 解决 这 个 问题 ，TensorFlow 可 以 通 




















(dictionary) 将 模型 保存 时 的 变量 名 和 需要 加 载 的 变量 联系 起 来 。 





这 样 做 主要 目的 之 一 是 方便 使 用 变量 的 滑动 平均 值 。 在 4.4.3 小 节 中 介绍 了 使 用 变量 
A (robust) 。 



































滑动 平均 值 是 通过 影子 变量 维护 的 ， 所 以 要 获取 变量 的 滑动 平均 值 实际 上 就 是 获取 这 
子 变 量 的 取 值 。 如 果 直 加 才 模 型 时 汪 搂 将 形 池 区 量 映射 到 变量 自身 ， 那 么 在 使 用 训练 
































模型 时 就 不 需要 再 调用 函数 来 获取 变量 的 滑动 平均 值 了 。 这 样 大 大 方便 了 滑动 平均 模 
使 用 。 以 下 代码 给 出 了 一 个 保存 滑动 平均 模型 的 样 例 。 











import tensorflow as tf 


v = tf.Variable(0, dtype=tf.float32, name="Vv") 


# 在 没有 申明 滑动 平均 模型 时 只 有 一 个 变量 v， 所 以 下 面 的 语句 只 会 输出 “Vv:0”。 


for variables in tf.all variables(): 


print variables.name 


ema = tf.train.ExponentialMovingAverage(0.99) 


maintain_averages_op = ema.apply(tf.all variables()) 


# 在 申明 滑动 平均 模型 之 后 ，TensorFlow 会 自动 生成 一 个 影子 变量 


# VvV/Exponent 


ialMoving Average。 于 是 下 面 的 语句 会 输出 


# “VvV:Q” 和 “Vv/ExponentialMovingAverage:0”。 


for variables in tf.all variables(): 


print variables.name 


的 滑 


A 每 一 个 变量 的 





个 影 


好 的 
型 的 


Saver = tf.train.Saver() 
with tf.Session() as Sess : 
init op = tf.initialize all variables() 


Sess.run(init op) 


sess.run(tf.assign(v, 10)) 
sess.run(maintain_averages_op) 


# 保存 时 ，TensorFlow 会 将 v:0 和 v/ExponentialMovingAverage:0 两 
个 变量 都 存 下 来 。 


saver.save(sess, "/path/to/model/model.ckpt") 


print sess.run([v, ema.average(v)]) # 输出 
[10.0, 0.099999905|] 








以 下 代码 给 出 了 如 何 通过 变量 重 命名 直接 读 取 变 量 的 滑动 平均 值 。 从 下 面 程序 的 输出 可 以 
看 出 ， 读 取 的 变量 v 的 值 实际 上 是 上 面 代码 中 变量 v 的 滑动 平均 值 。 通 过 这 个 方法 ， 束 可 
以 使 用 完全 一 样 的 代码 来 计算 滑动 平均 模型 前 向 传播 的 结果 。 


















































v = tf.Variable(0, dtype=tf.float32, name="Vv") 

通过 变量 重 命名 将 原来 变量 v 的 滑动 平均 值 直 接 赋值 给 v 
saver = tf.train.Saver({"v/ExponentialMovingAverage": v}) 
with tf.Session() as sess: 


saver.restore(sess, "/path/to/model/model.ckpt") 





print sess.run(v) # 输出 0.099999905， 这 个 值 就 是 原来 模型 中 变量 V 
的 滑动 平均 值 。 








为 了 方便 加 载 时 重 命名 滑动 平均 变量 ，tf ,train. ExponentialMovingAverage 类 类 提 
| to_restore 函 数 来 生成 tf ,train.Saver 类 所 需要 的 变量 重 命 名 字 
典 。 以 下 代码 给 出 了 variables_to_restore 函 数 的 使 用 样 例 。 












































Import tensorflow as tf 


v = tf.Variable(0, dtype=tf.float32, name="Vv") 


ema = tf.train.ExponentialMovingAverage(0.99) 


# 通过 使 用 variables to _restore 函 数 可 以 直接 生成 上 面 代码 中 提供 


# {"vV/ExponentialMovingAverage": v}。 


# 以 下 代码 会 输出 : 


的 字典 


# {'V/ExponentialMovingAverage': <tensorflow.python.ops.varia 


# object at Ox7ff6454ddc10>} 

# 其 中 后 面 的 Variable 类 就 代表 了 变量 v。 

print ema.variables to_restore() 

saver = tf.train.Saver(ema.variables to_restore()) 
with tf.Session() as sess: 


saver.restore(sess, "/path/to/model/model.ckpt") 


print sess.run(v) # 输出 0.099999905， 即 原来 模型 中 变量 v 的 滑 


动 平 均值 。 

















使 用 tf ,train.Saver 会 保存 运行 TensorF1Low 程 序 所 需要 的 全 部 信息 ， 然 而 有 时 并 不 
需要 某 些 信息 。 比 如 在 测试 或 者 离线 预测 时 ， 只 需要 知道 如 何 从 神经 网 络 的 输入 层 经 过 前 
向 传播 计算 得 到 输出 层 即 可 ， 而 不 需要 类 似 于 变量 初始 化 、 模 型 保存 等 辅助 节点 的 信息 

在 第 6 章 介绍 迁移 学 习 时 ， 会 遇 到 类 似 的 情况 。 而 且 ， 将 变量 取 值 和 计算 图 结构 分 成 不 同 





















































的 文件 存储 有 时 候 也 不 尹 便 ”于 是 TensorFjow 提 供 了 convert variables_ 
to_constants 函 数 ， 通 过 这 个 函数 可 以 将 计算 图 中 的 变量 及 其 取 值 通过 常量 




















的 方式 保 





存 ， 这 样 整个 TensorFlow 计 算 图 可 以 统一 存放 在 一 个 文件 中 。 下 面 的 程序 提供 了 一 个 样 








例 。 


import tensorflow as tf 














from tensorflow.python.framework import graph_util 


v1 = tf.Variable(tf.constant(1.0, shape=[1]), name="v1") 
v2 = tf.Variable(tf.constant(2.0, shape=[1]), name="v2") 
result = vi + v2 


init_op = tf.initialize all variables() 


with tf.Session() as sess: 
sess.run(init_op) 


# 导出 当前 计算 图 的 G6raphDef 部 分 ， 只 需要 这 一 部 分 就 可 以 完成 从 输入 层 到 
输出 层 的 计算 


# 过 程 。 


graph_def = tf.get default graph().as_graph_def() 








# 将 图 中 的 变量 及 其 取 值 转化 为 常量 ， 同 时 将 图 中 不 必要 的 节点 去 掉 。 在 
5.4.2 小 节 中 将 会 看 


# 到 一 些 系 统 运算 也 会 被 转化 为 计算 图 中 的 节点 (比如 变量 初始 化 操作 )。 如 果 
只 关心 程序 中 定 


# 义 的 菜 些 计算 时 ， 和 这 些 计算 无 关 的 节点 就 没有 必要 导出 并 保存 了 。 在 下 而 
一 行 代码 中 ， 最 


# 后 一 个 参数 ['add'] 给 出 了 需要 保存 的 节点 名 称 。add 节 点 是 上 面 定 义 的 两 
个 变量 相 加 的 





# 操作 。 注 意 这 里 给 出 的 是 计算 节点 的 名 称 ， 所 以 没有 后 面 的 :9 中-。 

output_graph_ def = graph_util,convert_ variables_ to_constan 
Sess，graph_def，[' add']) 

# 将 导出 的 模型 存 入 文件 。 


with tf.gfile.GFile("/path/to/model/combined model.pb", "w 


f.write(output_graph_def .SerializeToString()) 
































通过 下 面 的 程序 可 以 直接 计算 定义 的 加 法 运算 的 结果 。 当 只 需要 得 到 计算 图 中 某 个 节点 的 
ee 
迁移 学 习 。 




















Import tensorflow as tf 


from tensorflow.python.platform Import gfile 


with tf.Session() as sess: 
model filename = "/path/to/model/combined model.pb" 


# 读 取保 存 的 模型 文件 ， 并 将 文件 解析 成 对 应 的 
GraphDef Protocol Buffer。 


with gfile.FastGFile(model filename, 'rb') as f: 
graph_def = tf.GraphDef() 


graph_def .ParseFromString(f.read()) 


# 将 graph_def 中 保存 的 图 加 载 到 当前 的 图 中 。return_elements= 
["add:0"] 给 出 了 返回 


# 的 张 量 的 名 称 。 在 保存 的 时 候 给 出 的 是 计算 节点 的 名 称 ， 所 以 为 “add”。 在 
加 载 的 时 候 给 出 


# 的 是 张 量 的 名 称 ， 所 以 是 add :0。 


result = tf.import graph_def(graph_def, return_ elements= 
["add:0"]) 


print sess.run(result) 


5.4.2 持久 化 原理 及 数据 格式 


5.4.1 小 节 介 绍 了 当 调 用 saver .save 函数 时 ，TensorF1Low 程 序 会 自动 生成 3 个 文件 。 
TensorFlow 模 型 的 持久 化 就 是 通过 这 3 个 文件 完成 的 。 这 一 小 节 将 详细 介 、 
中 保存 的 内 容 以 及 数据 格式 。 在 具体 介绍 每 一 个 文件 之 前 ， 先 简单 回顾 一 下 第 3 章 中 介 

过 的 TensorFlow 的 一 些 基本 概念 。 TensorF1l6w 是 一 个 通 mt 
系统 ，TensorFlow 程 序 中 的 所 有 计算 都 会 被 表达 为 计算 图 上 的 节点 。TensorFlow 通 过 
元 图 (MetaGraph) 来 记录 计算 图 中 节点 的 信息 以 及 运行 计算 图 中 节点 所 需要 的 元 数 
据 。TensorFlow 中 元 图 是 由 MetaGraphDef Protocol “Buffer 定义 的 “ 鱼 一 。 
MetaGraphDef 中 的 内 容 就 构成 了 TensorFlow 持 久 化 时 的 第 一 个 文件 。 以 下 代码 给 出 
了 MetaGraphDef 类 型 的 定义 。 



























































message MetaGraphDef { 


MetaInfoDef meta info def = 工 ; 


GraphDef graph _ def = 2; 
SaverDef saver def = 3; 
map>string, CollectionDef> collection def = 4; 


map>string, SignatureDef> signature def = 














从 上 面 的 代码 中 可 以 看 到 ， Ti 下 面 的 篇 幅 将 结合 5 .4 .1 小 节 中 

变量 相 加 样 例 的 持久 化 结果 ， 逐 一 介绍 MetaGraphDef 类 型 的 每 一 个 属性 中 存储 的 信 

息 。 保 存 MetaGraphDef 信 息 ee meta 为 后 级 名 ， 在 5.4.1 小 节 的 样 例 中 ， 

0 ckpt .meta 中 存储 的 就 是 元 图 的 数据 。 直 接 运 行 5. 4,1 小 节 样 例 得 到 的 是 一 
二 进 制 文件 ， 无 法 直接 查看 。 为 了 方便 调试 ，TensorFlow 提 供 了 

Eo meta_graph 函 数 ， 这 个 函数 文 持 以 json 格 式 导 出 MetaGraphDef 

Protocol Buffer。 以 下 代码 展示 了 如 何 使 用 这 个 函数 。 















































Import tensorflow as tf 


# 定义 变量 相 加 的 计算 。 


v1i = tf.Variable(tf.constant(1.0, shape=[1]), name="v1") 


v2 = tf.Variable(tf.constant(2.0, shape=[1]), name="v2") 


reswults vi 


V2 


saver = tf.train.Saver() 


## 
json 格 式 。 


通过 export_meta_graph 函 数 导 出 TensorFlow 计 算 图 的 元 图 ， 并 保存 为 


saver .export_ meta graph("/path/to/model.ckpt.meda.json", as_ 


上 面 给 出 的 代码 ， 可 以 将 5.4.1 小 节 中 的 计算 图 元 图 以 json 的 格式 导出 并 存储 在 


a ckpt.meta.jso 





i 下 文 将 


TensorFlow 元 图 中 存储 的 信息 


meta _info_def 属 性 




















二 合 model .ckpt .meta.json 文 件 具 体 介 绍 





meta_info_def 属 性 是 通过 MetaInfoDef 定 义 的 ， 它 记录 了 TensorFlow 计 算 图 中 的 
元 数据 以 及 TensorFlow 程 序 中 所 有 使 用 到 的 运算 方法 的 信息 。 下 面 是 MetaInfoDef 
Protocol Buffer 的 定义 : 





message MetaInf 





oDef { 














string meta graph_version = 工 ; 


OpList stripped op_list 


= 2; 


google.protobuf.Any any_info = 3; 


repeated string tags = 4; 


TensorFlow 计 算 图 的 元 数据 包括 了 计算 攻 








的 版 本 号 (meta_ graph_ version 属 性 ) 以 及 














用 户 指定 的 一 些 标签 (tags 属 性 ) 。 如 果 没 有 在 saver 中 特殊 指定 ， 那 么 这 些 属 性 都 默认 





为 空 。 在 model1.ckpt.meta.json 文 件 中 ，meta_info_def 属 性 里 只 有 

















stripped_op_1List 属 性 是 不 为 空 的 。stripped_op_1ist 属 性 记录 了 TensorFlow 

















计算 图 上 使 用 到 的 所 有 运算 广 法 的 信息 。 注 











TensorFlow 运 算 方法 的 信息 


息 ， 所 以 如 果菜 一 











意 stripped_op_1List 属 性 保存 的 是 
个 运算 在 TensorFlow 计 算 图 中 出 现 了 多 





次 ， 那 么 在 stripped_op_1ist 也 只 会 出 现 一 次 。 比 如 在 model,ckpt ,meta,json 文 


件 的 stripped_op_list 属 性 中 只 有 一 个 Variable 运 算 ， 但 这 个 运算 在 程序 中 被 使 用 
了 两 次 。stripped_op_1ist 属 性 的 类 型 是 0pList。0pList 类 型 是 一 个 0pDef 类 型 的 
列表 ， 以 下 代码 给 出 了 0pDef 类 型 的 定义 : 


mess 


J 


0pDef 类 型 中 前 四 个 属性 定义 了 一 个 运算 最 核心 的 信息 。0pDef 中 的 第 一 个 属性 name 定 














age OpDef { 

string name = 1; 

repeated ArgDef input_arg = 
repeated ArgDef output arg = 


repeated AttrDef attr = 4; 


string summary = 
string description = 6; 


OpDeprecation deprecation = 8; 


bool is commutative = 18; 
bool is aggregate = 16 
bool is stateful = 17; 


bool allows_uninitialized_ input = 19; 





























义 了 运算 的 名 称 ， 这 也 大 个 运算 唯 在 TensorFlow 计 算 图 元 图 的 其 他 属性 
el 绍 的 GraphDef 属 性 ， 将 通过 运算 名 称 来 引用 不 同 的 运算 。0pDef 的 




















三 个 属 he arg 和 output_ - 它们 定义 了 运算 的 输入 和 输出 。 因为 





入 入 办 册 吉 可以 有 多 个 ， 所 以 这 丙 个 性趣 表 Crepeated 第 四 个 属性 attr 给 
其 他 的 运算 参数 信息 。 在 model .ckpt.meta. json 文 件 中 总 此 定义 了 7 个 运 云 算 ， 下 
A 个 运算 来 辅助 说 明 0pDef 的 数据 结构 。 


op 【 


























上 面 给 出 了 名 称 为 Add 的 运算 。 这 个 运算 有 2 个 输入 和 1 个 输出 ， 输 入 输出 属性 都 指定 了 属 




















性 type_attr， 并 且 这 个 属性 的 值 为 T。 在 0ppef 的 attr 属 性 中 ， 必 须要 出 现 名 称 
Cname) 为 T 的 属性 。 以 上 样 例 中 ， 这 个 属性 指定 了 运算 输入 输出 允许 的 参数 类 型 


(allowed_values).。 





























graph_def 属 性 


graph_def 属 性 主要 记录 了 TensorF1Low 计 算 图 上 的 节点 信息 。TensorF1Low 计 算 图 的 
每 一 个 节点 对 应 了 TensorFlow 程 序 中 的 一 个 运算 。 因 为 在 meta_info_def 属 性 中 己 经 
包含 了 所 有 运算 的 具体 信息 ， 所 以 graph_def 属 性 只 关注 运算 的 连接 结构 。graph_def 






























































属性 是 通过 GraphDef Protocol Buffer 定 义 的 ，GraphDef 主 要 包含 了 一 个 





NodeDef 类 型 的 列表 。 以 下 代码 给 出 了 GraphDef 和 NodeDef 类 型 中 包含 的 信息 : 





message GraphDef { 
repeated NodeDef node = 1; 


VersionDef versions = 4; 


J 


message NodeDef { 
string name = 工 ; 
string op = 
repeated string input = 3; 
string device = 4; 
map<string, AttrValue> attr = 5; 


7 








GraphDef 中 的 versions 属 性 比较 简单 ， 它 主要 存储 了 TensorF1ow 的 版 本 号 。 
GraphDef 的 主要 信息 都 存在 node 属 性 中 ， 它 记录 了 TensorFlow 计 算 图 上 所 有 的 节点 


信息 























。 和 其 他 属性 类 似 ，NodeDef 类 型 中 有 一 个 名 称 属性 name， 它 是 一 个 节点 的 唯一 标 
识 符 。 

















在 TensorFlow 程 序 中 可 以 通过 节点 的 名 称 来 获取 相应 的 节点 。NodeDef 类 型 中 





的 op 属性 给 出 了 该 节点 使 用 的 TensorFlow 运 算 方 法 的 名 称 ， 通 过 这 个 名 称 可 以 在 
TensorFlow 计 算 图 元 图 的 meta_info_def 属 性 中 找到 该 运算 的 具体 信息 。 


NodeDef 类 型 中 的 ijnput 属 性 是 一 个 字符 串 列 表 ， 它 定义 了 运算 的 输入 。input 属 性 中 
每 个 字符 串 的 取 值 格式 为 node :src_output， 其 中 node 部 分 给 出 了 一 个 节点 的 名 称 ， 

src_output 部 分 表明 了 这 个 输入 是 指定 节点 的 第 几 个 输出 。 当 src_output 为 9 时 ， 可 
以 省 略 :src_output 这 个 部 分 。 比 如 node :0 表示 名 称 为 node 的 节点 的 第 一 个 输出 ， 它 
也 可 以 被 记 为 node。 


NodeDef 类 型 中 的 device 属 性 指定 了 处 理 这 个 运算 的 设备 。 TensorE iow Sl 
备 可 以 是 本 地 机 器 的 CPU 或 者 GPU， 也 可 以 是 一 台 远 程 的 机 器 CPU 或 者 GPU。 第 10 章 将 有 具 
体 介绍 如 何 指定 运行 TensorFlow 运 算 的 设备 。 当 device 属 性 为 空 时 ， TensorFlow 在 
运行 时 会 自动 选取 一 个 最 合适 的 设备 来 运行 这 个 运算 。 最 后 NodeDef 类 型 中 的 attr 属 | 
指定 了 和 当前 运算 相关 的 配置 信息 。 下 面 列举 了 model.ckpt .meta.json 文 件 中 的 一 
计算 节点 来 更 加 有 具体 地 介 绍 graph_def 属 性 。 
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graph_def { 
node { 
name: "v1" 


op: "Variable" 

attr { 
key: "_output_shapes" 
value { 


list { shape { dim { Ssize: 1 } } } 


| 

了 

attr { 
key: "dtype" 
value { 


type: DT_FLOAT 


} 
node { 
name: "add" 
op:; "Add" 
input: "vi/read" 


input: "v2/read" 


node { 
name: "save/control dependency" 


op: "Identity" 


i 
versions { 


producer: 9 





上 面 给 出 了 model. ckpt .meta.json 文 件 中 graph_def 属 性 里 比较 有 代表 性 的 几 个 节 
点 。 第 一 个 节点 给 出 的 是 变量 定义 的 运算 。 在 TensorFlow 中 变量 定义 也 是 一 个 运算 ， 这 
个 运算 的 名 称 为 v1 (name: "v1")， 运 算 方 法 的 名 称 为 Variable(op: 
"Variable")。 定 义 变 量 的 运算 可 以 有 很 多 个 ， 于 是 在 NodeDef 类 型 的 node 属 性 中 可 
以 有 多 个 变量 定义 的 节点 。 但 定义 变量 的 运算 方法 只 用 到 了 一 个 ， 于 是 在 MetaInfoDef 
类 型 的 stripped_ op_ 1ist 属 性 中 只 4 有 一 个 名 称 为 Variab1le 的 运算 方法 。 除 了 指定 计 
算 图 中 节点 的 名 和 OU ss re i 
中 ，attr 属 性 指定 了 这 个 变量 的 维度 以 及 类 





















































































































































给 出 的 第 三 个 节点 是 代表 加 法 运算 的 节点 。 它 指定 了 2 个 输入 ， 一 个 为 vl1/read， ” 另 一 
个 为 v2/read。 其 中 v1/read 代 表 的 节点 可 以 读 取 变 量 v1 的 值 。 因 为 v1 的 值 是 节点 
v1/read 的 第 一 个 输出 ， 所 以 后 面 的 :0 就 可 以 省 上 咯 了 。v2/read 也 类 似 的 代表 了 变量 v2 
的 取 值 。 以 上 样 例文 件 中 给 出 的 最 后 一 个 名 称 为 save/control_dependency， 该 节点 
是 系统 在 完成 TensorFlow 模 型 持久 化 过 程 中 自动 生成 的 一 个 运算 。 在 样 例文 件 的 最 后 ， 
属性 versions 给 出 了 生成 model.ckpt .meta ,json 文件 时 使 用 的 TensorFlow 版 本 
ye 























saver_def 属 性 


saver_def 属 性 中 记录 了 持久 化 模型 时 需要 用 到 的 一 些 参数 ， 比 如 保存 到 文件 的 文件 
名 、 保 存 操作 和 加 载 操 作 的 名 称 以 及 保存 频率 、 清 理 历 史记 录 等 。saver_def 属 性 的 类 
型 为 SaverDef， 其 定义 如 下 。 
































message SaverDef { 
string filename_ tensor_name = 1; 
string Save_tensor_name = 2; 
string restore op_name = 3,; 
int32 max_to_keep = 4; 
bool sharded = 5; 


float keep_ checkpoint_ every_n_hours = 6; 


enum CheckpointFormatVersion { 


LEGACY = 0,， 
VE 
V2 = 2;，; 
} 
CheckpointFormatVersion version = 7; 


下 面 给 出 了 model.ckpt .meta.json 文 件 中 saver_def 属 性 的 内 容 。 





saver_def { 
filename_ tensor_name: "save/Const:0" 
save_tensor_name: "save/control dependency:0" 
restore op_name: "save/restore all" 
max_to_keep: 5 


keep_checkpoint_every_n_hours: 10000.0 


filename_tensor_name 属 性 给 出 了 保存 文件 名 的 张 量 名 称 ， 这 个 张 量 就 是 节点 
Save/Const 的 第 一 个 输出 。 save_tensor_name 属 性 给 出 了 持久 化 TensorFlow 模 型 
的 运算 所 对 应 的 节点 名 称 。 从 上 面 的 文件 中 可 以 看 出 ， 这 个 节点 驶 是 在 graph_def 属 ， 
中 给 出 的 save/control_dependency 节 点 。 ,和 持久 化 TensorFlow 模 型 运算 对 应 的 是 
加 载 TensorFlow 模 型 的 运算 ， 这 个 运算 的 名 称 由 restore_op_name 属 性 指定 。 
max_to_keep 属 性 和 keep_checkpoint_ every_n _hours 属 性 设 定 了 
tf,train,Saver 类 清理 之 前 保存 的 模型 的 策略 。 比 如 当 max_to 的 时 佛 在 
第 六 次 调用 Saver , save 时， 第 一 次 保存 的 模型 就 会 被 自动 删除 。 通 过 设置 
keep_checkpoint_every_n_hours, 每 n ”小 时 可 以 在 max_to_keep 的 基础 上 多 保 
存 一 个 模型 。 


collection def 属性 


在 TensorFlow 的 计算 图 (tf.Graph ) 中 可 以 维护 不 同 集合 ， 而 维护 这 些 集 合 的 底层 实现 
就 是 通过 collection_def 这 个 属性 。collection_def 属 性 是 一 个 从 集合 名 称 到 集合 
内 容 的 映射 ， 其 中 集合 名 称 为 字符 串 ， 而 集合 内 容 为 CollectionDef Protocol 
Buffer。 以 下 代码 给 出 了 CollectionDef 类 型 的 定义 。 
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message CollectionDef { 
message NodeList { 


repeated string value = 1; 


message BytesList { 


repeated bytes value 


ll 
[Ey 


message Int64List { 


repeated int64 value = 1 [packed = truel]; 
} 
message FloatList { 

repeated float value = 1 [packed = truel]; 
} 
message AnyList { 

repeated google.protobuf ,Any Value = 工 ; 


oneof Kind { 


NodeList node list = 1; 


BytesList bytes_ list = 2; 
INt64List int64 list = 3; 
FloatList float list = 4; 


AnyList any_list = 5; 








通过 上 面 的 定义 可 以 看 出 ，TensorFlow 计 算 图 上 的 集合 主要 可 以 维护 4 类 不 同 的 集合 。 
NodeList 用 于 维护 计算 图 上 节点 的 集合 。BytesList 可 以 维护 字符 串 或 者 系列 化 之 后 
的 Procotol Buffer 的 集合 。 比 如 张 量 是 通过 Protocol] Buffer 表 示 的 ， 而 张 量 的 集 














合 是 通过 BytesList 维 护 的 ， 我 们 将 在 model ,ckpt .meta.json 文 件 中 看 到 具体 样 
例 。Int64List 用 于 维护 整数 集合 ，FloatList 用 于 维护 实数 集合 。 下 面 给 出 了 
model.ckpt .meta.json 文 件 中 collection_def 属 性 的 内 容 。 








collection def { 
key: "trainable variables" 
value { 
bytes_list { 
value: "\N\O04v1:0\022\tv1i/Assign\032\tvi/read:0O" 


value: "\Nn\O04v2:0\022\tv2/Assign\032\tv2/read:0O" 


} 


collection def { 
key: "variables" 
value { 
bytes_list { 
value: "\Nn\O04v1:0\022\tv1i/Assign\032\tvi/read:0O" 


value: "\N\O04v2:0\022\tv2/Assign\032\tv2/read:0O" 


从 上 面 的 文件 可 以 看 出 样 例 程序 中 维护 了 两 个 集合 。 一 个 是 所 有 变量 的 集合 ， 这 个 集合 的 
名 称 为 variables。 男 外 一 个 是 可 训练 变量 的 集合 ， 名 为 trainable_variables。 在 
样 例 程序 中 ， 这 两 个 集合 中 的 元 素 是 一 样 的 ， 都 是 变量 v1 和 v2。 它 们 都 是 系统 自动 维护 


的 是-。 






































通过 对 MetaGraphDef 基 型 中 主要 属性 的 讲解 ， 本 小 节 已 经 介绍 了 TensorFlow 模 型 持 
久 化 得 到 的 第 一 个 文件 中 的 内 容 。 除 了 持久 化 TensorFlow 计 算 图 的 结构 ， 持 久 化 
TensorFlow 中 变量 的 取 值 也 是 非常 重要 的 一 个 部 分 。5.4. 1 小 节 中 使 用 tf ,Saver 得 到 
的 mode1.ckpt 文 件 就 保存 了 所 有 变量 的 取 值 。 这 个 文件 是 通过 SSTab1le 格 式 存储 的 ， 
可 以 大 致 理解 为 就 是 一 个 (key，value) 列表 。 


model .ckpt 文 件 中 列表 的 第 一 行 描 述 了 文件 的 元 信息 ， ee es 
表 。 列 表 剩 下 的 每 一 行 保 存 了 一 个 变量 的 片段 ， 变 量 片段 的 信息 是 通过 SavedSlice 
Protocol Buffer 定 义 的 。SavedSlice 类 型 中 保存 了 变量 的 名 称 、 当 前 片段 的 信息 以 

及 变量 取 值 。TensroFlow 提 供 了 tf.train.NewCheckpointReader 类 来 查看 
model .ckpt 文 件 中 保存 的 变量 信息 。 以 下 代码 展示 了 如 何 使 用 


tf.train. NewCheckpointReader 类 。 


























































































































import tensorflow as tf 


# tf.train.NewCheckpointReader 可 以 读 取 checkpoint 文 件 中 保存 的 所 有 
变量 。 


reader = tf.train.NewCheckpointReader('/path/to/model/model.c 


# 获取 所 有 变量 列表 。 这 个 是 一 个 从 变量 名 到 变量 维度 的 字典 。 
all variables = reader.get variable to_shape map() 
for variable _ name in all variables: 


# variable_name 为 变量 名 称 ，all_variables[variable_name] 为 变 


量 的 维度 。 


print variable name, all variables[variable namel 


# 获取 名 称 为 v1 的 变量 的 取 值 。 


print "Value for variable vi is ", reader.get tensor("v1") 


这 个 程序 将 输出 : 


v1 [1] # 变量 v1 的 
维度 为 [1]。 


v2 [1] # 变量 v2 的 
维度 为 [1]。 
Value for variable vi is [ 1.] # 变量 v1 的 取 值 为 





最 后 一 个 文件 的 名 字 是 固定 的 ， 叫 checkpoint。 这 个 文件 是 tf.train,.Saver 类 自动 
生成 且 自 动 维护 的 。 在 checkpoint 文 件 中 维护 了 由 一 个 tf .train,.Saver 类 持久 化 的 
所 有 TensorF1Low 模 型 文件 的 文件 名 。 当 某 个 保存 的 TensorF1Low 模 型 文件 被 删除 时 ， 这 
个 模型 所 对 应 的 文件 名 也 会 从 checkpoint 文 件 中 删除 。checkpoint 中 内 容 的 格式 为 
CheckpointState Protocol Buffer， 下 面 给 出 了 CheckpointState 类 型 的 定 
义 。 























message CheckpointState { 
string model checkpoint path = 1; 


repeated string all model checkpoint_paths = 2; 





model_checkpoint_path 属 性 保存 了 最 新 的 TensorFlow 模 型 文件 的 文件 名 。 
all_model_checkpoint_paths 属 性 列 出 了 当前 还 没有 被 删除 的 所 有 TensorFlow 模 
型 文件 的 文件 名 。 下 面 给 出 了 通过 5 .4.1 节 中 样 例 程 序 生 成 的 checkpoint 文 件 。 

















model checkpoint_path: "/path/to/model/model.ckpt" 


all model checkpoint_ paths: "/path/to/model/model.ckpt" 


5.5 TensorFlow 最 佳 实 践 样 例 程 序 


在 5.2.1 小 节 中 己 经 给 出 了 一 个 完整 的 TensorFlow 程 序 来 解决 MNIST 问 题 。 然 而 这 个 程 
序 的 可 扩展 性 并 不 好 。 如 在 5.， 0 计算 前 向 传播 的 函数 需要 将 所 有 变量 都 传 
入 ， 当 神经 网 络 的 结构 变 得 更 加 复杂 、 参 数 更 多 时 ， 程 序 可 读 性 会 变 得 非常 差 。 而 且 这 种 









































方式 会 导致 程序 中 有 大 量 的 见 余 代码 ， 降 低 编程 的 效率 。5 .2 .1 小 节 给 出 的 程序 的 另外 一 
个 问题 是 没有 持久 化 训练 好 的 模型 。 ee 























这 导致 得 到 的 模型 无 法 被 重用 。 更 严重 的 问题 是 ， 一 般 神经 网 络 模型 训练 的 时 间 都 比较 
长 ， 少 则 几 个 小 时 ， 多 则 几 天 甚至 几 周 。 如 果 在 训练 过 程 中 程序 死机 了 ， 那 么 没有 保存 训 








练 的 中 间 结 果 会 浪费 大 量 的 时 间 和 资源 。 所 以 ， 在 训练 的 过 程 中 需要 每 隔 一 段 时 间 保 存 一 
次 模型 训练 的 中 间 结 果 。 


结合 5.3 节 中 介绍 的 变量 管理 机 制 和 5 .4 节 中 介绍 的 TensorFlow 模 型 持久 化 机 制 ， 本 节 





















































中 将 介绍 一 个 TensorF1ow 训 练 神经 网 络 模型 的 最 佳 实践 。 将 训练 和 测试 分 成 两 个 独立 的 
程序 ， 这 可 以 使 得 每 一 个 组 件 更 加 灵活 。 比 如 训练 神经 网 络 的 程序 可 以 持续 输出 训练 好 的 
模型 ， 而 测试 程序 可 以 每 隔 一 段 时 间 检 验 最 新 模型 的 正确 率 ， 如 果 模 型 效果 更 好 ， 则 将 这 
个 模型 提供 给 产品 使 用 。 除 了 将 不 同 功能 模块 分 开 ， 本 节 还 将 前 向 传播 的 过 程 抽象 成 一 个 
单独 的 库 函 数 。 因 为 神经 网 络 的 前 向 传播 过 程 在 训练 和 测试 的 过 程 中 都 会 用 到 ， 所 以 通过 
库 函 数 的 方式 使 用 起 来 既 可 以 更 加 方便 ， 又 可 以 保证 训练 和 测试 过 程 中 使 用 的 前 向 传播 方 





法 



























































一 定 是 一 致 的 。 





本 节 将 提供 重 构 之 后 的 程序 来 解决 MNIST 问 题 。 重 构 之 后 的 代码 将 会 被 拆 成 3 个 程序 ， 
一 个 是 mnist_inference,py， 它 定义 了 前 向 传播 的 过 程 以 及 神经 网 络 中 的 参数 。 第 二 


人 











是 mnist_train.py， 它 定义 了 神经 网 络 的 训练 过 程 。 第 三 个 是 mnist_eval. “0 


它 定义 了 测试 过 程 。 以 下 代码 给 出 了 mnist_inference.py 中 的 内 容 。 


# -*- Coding: utf-8 -*- 


import tensorflow as tf 


# 定义 神经 网 络 结构 相关 的 参数 。 
INPUT_NODE = 784 
OUTPUT_NODE = 10 


LAYER1 NODE = 500 


# 通过 tf.,get_variable 函 数 来 获取 变量 。 在 训练 神经 网 络 时 会 创建 这 些 变 量 ; 


在 测试 时 会 通 





# 过 保存 的 模型 加 载 这 些 变 量 的 取 值 。 而 且 更 加 方便 的 是 ， 因 为 可 以 在 变量 加 载 时 


将 滑动 平均 变量 





# 重 命名 ， 所 以 可 以 直接 通过 同样 的 名 字 在 训练 时 使 用 变量 自身 ， 而 在 测试 时 使 用 


变量 的 滑动 平 


# 均值 。 在 这 个 函数 中 也 会 将 变量 的 正则 化 损失 加 入 损失 集合 。 
def get weight_ variable(shape, regularizer): 
weights = tf.get_ variablel( 


"weights", shape, 


initializer=tf.truncated normal initializer(stddev=0. 


# 当 给 出 了 正则 化 生成 函数 时 ， 将 当前 变量 的 正则 化 损失 加 入 名 字 为 1osses 的 
# 使 用 了 add_to_collection 函 数 将 一 个 张 量 加 入 一 个 集合 ， 而 这 个 集合 的 
名 称 为 1o0sses。 


# 这 是 自 定义 的 集合 ， 不 在 TensorFlow 自 动 管理 的 集合 列表 中 。 


if regularizer != None: 


tf.add_ to collection('losses', regularizer (weights)) 


return weights 


# 定义 神经 网 络 的 前 向 传播 过 程 。 
def inference(input_tensor, regularizer): 


# 声明 第 一 层 神 经 网 络 的 变量 并 完成 前 向 传播 过 程 。 


with tf.variable_ scope('layer1'): 
# 这 里 通过 tf,get_variable 或 tf,Variable 没 有 本 质 区 别 ， 因 为 在 
训练 或 是 测试 中 


# 没有 在 同一 个 程序 中 多 次 调用 这 个 函数 。 如 果 在 同一 个 程序 中 多 次 调 
用 ， 在 第 一 次 调用 


# 之 后 需要 将 reuse 参 数 设 置 为 True。 


weights = get weight variable( 


[INPUT_NODE， LAYER1 NODE], regularizer) 


biases = tf.get_ variablel( 
"biases", [LAYER1_ NODE], 
initializer=tf.constant_initializer(0.0)) 


layer1 = tf.nn.relu(tf.matmul(input_ tensor, weights) + 


# 类 似 的 声明 第 二 层 神 经 网 络 的 变量 并 完成 前 向 传播 过 程 。 
with tf.variable_ scope('layer2'): 
weights = get weight variable( 
[LAYER1_ NODE, OUTPUT_NODE], regularizer) 
biases = tf.get_ variablel( 
"biases", [OUTPUT_NODE], 
initializer=tf.constant_initializer(0.0)) 


layer2 = tf.matmul(layer1, weights) + biases 


# 返回 最 后 前 向 传播 的 结果 。 


return layer2 








在 这 段 代 码 中 定 了 神经 网 络 的 前 向 传播 算法 。 无 论 是 训练 时 还 是 测试 时 ， 都 可 以 直接 调用 
inference 这 个 函数 ， 而 不 用 关心 具体 的 神经 网 络 结构 。 使 用 定义 好 的 前 向 传播 过 程 ， 
以 下 代码 给 出 了 神经 网 络 的 训练 程序 mnist_train.py。 


























# -*- coding: utf-8 -*- 


import os 


import tensorflow as tf 


from tensorflow.examples.tutorials.mnist import input_data 


# 加 载 mnist_inference.py 中 定义 的 常量 和 前 向 传播 的 函数 。 


import mnist_inference 


# 配置 神经 网 络 的 参数 。 

BATCH_SIZE = 100 

LEARNING RATE BASE = 0.8 
LEARNING RATE DECAY = 0.99 
REGULARAZTION_ RATE = 0.0001 
TRAINING STEPS = 30000 

MOVING AVERAGE DECAY = 0.99 

# 模型 保存 的 路 径 和 文件 名 。 
MODEL_SAVE_PATH = "/path/to/model/" 


MODEL_NAME = "model.ckpt" 


def train(mnist): 
# 定义 输入 输出 placeholder。 
x = tf.placeholder( 


tf.float32, [None, mnist_inference.INPUT NODE], name= 
input"') 


y_ = tf.placeholder( 


tf.float32, [None, mnist_inference.OUTPUT_NODE], name 
input"') 


regularizer = tf.contrib.layers.12 regularizer (REGULARAZTI 





# 直接 使 用 mnist_ inference.py 中 定义 的 前 向 传播 过 程 。 
y = mnist_ inference.inference(x, regularizer) 
global step = tf.Variable(0, trainable=False) 


# 和 5.2.1 小 节 样 例 中 类 似 地 定义 损失 函数 、 学 习 率 、 滑 动 平均 操作 以 及 训练 


variable averages = tf.train.ExponentialMovingAverage( 
MOVING AVERAGE_DECAY, global_ step) 

variables_ averages op = variable averages.apply( 
tf.trainable variables()) 

cross_entropy = tf.nn.sparse softmax_cross_ entropy_with_ lo 
y, tf.argmax(y_, 1)) 

cross_entropy_mean = tf.reduce mean(cross_entropy) 

loss = cross_entropy mean + tf.add n(tf.get collection('lo 

learning_rate = tf.train.exponential decay( 
LEARNING RATE_BASE, 
global_step, 
mnist.train.num examples / BATCH_SIZE, 
LEARNING_RATE_DECAY ) 

train_step = tf.train.GradientDescentOptimizer(learning_ra 

.minimize(loss, global step=global_ step 

with tf.control dependencies([train_ step, variables_ averadg 
train_ op = tf.no_op(name='train') 

# 初始 化 TensorFlow 持 久 化 类 。 


saver = tf.train.Saver() 


with tf.Session() as Sess : 


tf.initialize all variables().run() 


# 在 训练 过 程 中 不 再 测试 模型 在 验证 数据 上 的 表现 ， 验 证 和 测试 的 过 程 将 


会 和 有 二 个 和 法 
# 立 的 程序 来 完成 。 
for i in range(TRAINING STEPS): 
xs, ys = mnist.train.next_ batch(BATCH_SIZE) 
_, loss value, step = sess.run([train op, loss, gl 


feed dict= 
DX SP SH) 


# 每 1000 轮 保存 一 次 模型 。 
if i % 1000 == 


# 输出 当前 的 训练 情况 。 这 里 只 输出 了 模型 在 当前 训练 
batch 上 的 损失 函 


# 数 大 小 。 通 过 损失 函数 的 大 小 可 以 大 概 了 解 训练 的 情 
况 。 在 验证 数据 集 上 的 





# 正确 率 信息 会 有 一 个 单独 的 程序 来 生成 。 
print("After %d training step(s), loss on t 
"batch is %g." % (step, loss_ value)) 


# 保存 当前 的 模型 。 注 意 这 里 给 出 了 global_step 参 数 ， 
这 样 可 以 让 每 个 被 


# 保存 模型 的 文件 名 末尾 加 上 训练 的 轮 数 ， 比 
如 “model.ckpt-1000” 表 示 


# 训练 l000 轮 之 后 得 到 的 模型 。 
saver .savel( 


sess, 0s.path.join(MODEL_ SAVE_ PATH, MO 


global_step=global_step) 


def main(argv=None): 


if 


mnist = input_data.read data sets("/tmp/data", one_hot=Tru 


train(mnist) 
name == ' main _': 


tf.app.run() 





运行 上 面 的 程序 ， 可 以 得 到 类 似 下 面 的 结果 。 











~/mnist$ python mnist_train.py 


Extracting /tmp/data/train-images-idx3-ubyte.gz 


Extracting /tmp/data/train-labels-idx1i-ubyte.gz 


Extracting /tmp/data/t1i0k-images-idx3-ubyte.gz 


Extracting /tmp/data/t1i0k-labels-idx1i-ubyte.gz 


After 1 training step(s), loss on training batch is 3.32075. 


After 1001 training step(s), 


After 2001 training step(s), 


After 3001 training step(s), 


After 4001 training step(s), 


After 5001 training step(s), 


在 新 的 训练 代码 中 ， 不 再 将 训练 和 测试 跑 在 一 


前 训练 bat 
存 一 次 训练 好 的 模型 ， 这 档 





做 测试 。 














Joss 


J]Joss 


Joss 


Joss 


J]Joss 


起 。 训 练 过 
ch 上 损失 函数 的 大 小 来 大 致 估计 训练 的 效果 。 在 上 面 的 程序 中 ， 
可 以 通过 一 个 单独 的 测试 程序 ， 更 加 方便 地 在 滑 
以 下 代码 给 出 了 测试 程序 mnist_eval.py。 





on training batch is 0.2410 


on 


on 


on 


on 





training batc 
training batc 
training batc 


training batc 


MS OR2278 


h is 0.1384 


h is 0.1320 


h is 0.1034 


十 程 中 ， 每 1000 轮 输出 一 次 在 当 











每 10090 轮 保 
骨 动 平均 模型 上 








# -*- Coding: utf-8 -*- 
import time 
import tensorflow as tf 


from tensorflow.examples.tutorials.mnist import input_data 


# 加 载 mnist inference.py 和 mnist train.py 中 定义 的 常量 和 函数 。 
import mnist_inference 


import mnist_ train 


# 每 10 秒 加 载 一 次 最 新 的 模型 ， 并 在 测试 数据 上 测试 最 新 模型 的 正确 率 。 


EVAL_INTERVAL_SECS = 10 


def evaluate(mnist): 
with tf.Graph().as_default() as d: 
# 定义 输入 输出 的 格式 。 
x = tf.placeholder( 


tf.float32, [None, mnist_inference.INPUT_ NODE], na 
input") 


y_ = tf.placeholder( 


tf.float32, [None, mnist_inference.OUTPUT_ NODE], nN 
input") 


validate feed = {x: mnist.validation.images, 


y_:mnist.validation. labels} 


# 直接 通过 调用 封装 好 的 函数 来 计算 前 向 传播 的 结果 。 因 为 测试 时 不 关注 


正则 化 损失 的 值 ， 
# 所 以 这 里 用 于 计算 正则 化 损失 的 函数 被 设置 为 None。 


y = mnist_inference.inference(x, None) 


# 使 用 前 向 传播 的 结果 计算 正确 率 。 如 果 需 要 对 未 知 的 样 例 进行 分 类 ， 
那么 使 用 


# tf.,argmax(y，1) 就 可 以 得 到 输入 样 例 的 预测 类 别 了 。 
correct prediction = tf.equal(tf.argmax(y, 1), tf.argm 


accuracy = tf.reduce mean(tf.cast(correct_ prediction, 


# 通过 变量 重 命名 的 方式 来 加 载 模型 ， 这 样 在 前 向 传播 的 过 程 中 就 不 需要 
调用 求 滑动 平均 


# 的 函数 来 获取 平均 值 了 。 这 样 就 可 以 完全 共用 mnist_inference .py 
中 定义 的 


# 前 向 传播 过 程 。 

variable averages = tf.train.ExponentialMovingAverage( 
mnist_train.MOVING AVERAGE_DECAY) 

variables_ to_restore = variable averages.variables to_ 


saver = tf.train.Saver(variables to_restore) 


# 每 隔 EVAL_INTERVAL_SECS 秒 调用 一 次 计算 正确 率 的 过 程 以 检测 训 
练 过 程 中 正确 率 的 # 变化 。 


while True: 
with tf.Session() as sess: 


# tf.train.get_checkpoint_state 函 数 会 通过 
checkpoint 文 件 自动 


# 找到 目录 中 最 新 模型 的 文件 名 。 

ckpt = tf.train.get_checkpoint_statel( 
mnist_train,MODEL_SAVE_PATH ) 

if ckpt and ckpt.model checkpoint_path: 
# 加 载 模型 。 
saver.restore(sess, ckpt.model checkpoint_p 
# 通过 文件 名 得 到 模型 保存 时 迭代 的 轮 数 。 
global step = ckpt.model checkpoint_path\ 


.split('/') 
[-11.split('-')[-1] 


accuracy_score = sess.run(accuracy, 
feed di 
print("After %s training step(s), validatio 
"accuracy = %g" % (global_ step, 
else: 
print('No checkpoint file found') 
return 


time.sleep(EVAL INTERVAL_ SECS) 
def main(argv=None): 
mnist = input_data.read data sets("/tmp/data", one_hot=Tru 


evaluate(mnist) 


ME CTS marnnn 


tf.app.run() 


上 面 给 出 的 mnist_eval .py 程序 会 每 隔 10 秒 运行 一 次 ， 每 次 运行 都 
型 ,并 在 MNIST 验 证 数据 集 上 计算 模型 的 正 有 


如 这 个 样 例 程序 可 以 判断 手写 体 数学 图 








改 为 答 


程序 每 10 秒 自动 运行 一 次 ， 而 训练 程序 不 一 
果 中 会 发 现 有 些 模 型 被 测试 了 多 次 。 一 般 在 解决 真实 问题 





序 。 






































~/mnist$ python mnist eval.py 


和 率 。 如 果 需 要 离线 预测 
片 中 所 包含 的 数字 ) ， 只 需要 将 计算 正确 率 的 部 分 
案 输出 即 可 。 运 行 mnist_eval .py 程序 可 以 得 到 类 似 下 面 的 结果 。 注 意 因为 这 个 
定 每 10 秒 输出 一 个 新 模型 ， 所 以 在 下 面 的 结 


页 时 ， 不 会 这 么 频繁 地 运行 评测 程 














Extracting /tmp/data/train-images-idx3-ubyte.gz 


Extracting /tmp/data/train-labels-idx1i-ubyte.gz 


Extracting /tmp/data/t1i0k-images-idx3-ubyte.gz 


Extracting /tmp/data/t1i0k-labels-idx1-ubyte.gz 


After 1 training step(s), test accuracy 


After 1001 
After 1001 
After 2001 
After 3001 
After 4001 
After 5001 
After 6001 


After 6001 


让 


本 章 通 


training 
training 
training 
training 
training 
training 
training 


training 


过 MNIST 数 据 集 验证 了 第 4 章 介 





step(s), 
step(s), 
step(s), 
step(s), 
step(s), 
step(s), 
step(s), 


step(s), 


validation 
validation 
validation 
validation 
validation 
validation 
validation 


validation 


绍 的 神经 网 络 优化 方法 








是 读 取 最 新 保存 的 模 
未 知 数据 的 类 别 〈 比 

















= 0.1282 

accuracy .9769 
accuracy .9769 
accuracy .9804 
accuracy .982 
accuracy .983 
accuracy .9829 
accuracy .9832 
accuracy .9832 
， 同 时 也 给 出 了 使 用 


TensorF1Low 解 决 MNIST 问 题 的 最 佳 实践 样 例 程序 。 首 先 在 本 章 的 5.1 节 中 大 致 讲解 了 

MNIST 数 据 集 的 基本 情况 ， 也 介绍 了 TensorF1Low 提 供 的 一 个 类 让 处 理 MNIST 数 据 集 更 加 
方便 。 然 后 5.2 节 给 出 了 一 个 完整 的 TensorFLow 程 序 来 实现 第 4 章 中 提 到 的 所 有 优化 方 
法 。 通 过 此 程序 ， 对 比 了 不 同 优化 算法 对 模型 在 测试 数据 集 上 正确 率 的 影响 。 在 MNIST 数 
据 集 上 ， 可 以 明显 地 观察 到 神经 网 络 的 结构 对 最 终结 果 的 影响 是 巨大 的 ， 使 用 了 激活 函数 
和 隐藏 层 的 神经 网 络 要 远 远 好 于 没有 激活 函数 或 者 没有 隐藏 层 的 神经 网 络 。 下 面 的 第 6 章 
将 介绍 神经 网 络 中 一 个 非常 常用 的 结构 一 卷 积 网 络 。 通 过 卷 积 网 络 可 以 进一步 提高 神经 

网 络 模型 在 MNIST 数 据 集 上 的 正确 率 。 对 于 其 他 的 优化 方法 ， 虽 然 在 MNIST 数 据 集 上 对 于 
正确 率 的 提高 有 限 ， 但 是 通过 进一步 的 分 析 ， 验 证 了 它们 确实 可 以 解决 第 4 章 中 提 到 的 问 
这 一 节 也 提出 了 在 一 个 更 加 复杂 数据 集 上 ， 这 些 优 化 算法 可 以 降低 大 约 10% 的 错误 


在 5.3 和 5.4 节 中 提出 了 5.2 节 中 TensorFlow 程 序 实现 的 一 些 不 足 之 处 ， 并 介绍 了 
TensorFLow 的 最 佳 实践 来 解决 这 些 不 足 。5 ,3 节 指 出 当 神 经 网 络 的 结构 变 得 更 加 复杂 、 
变量 更 多 之 后 ， 通 过 引用 的 方式 传递 变量 会 大 大 降低 程序 的 可 读 性 。 为 了 解决 这 个 问题 ， 
5.3 节 介绍 了 TensorFlow 中 利用 变量 名 称 来 创建 /获取 变量 的 机 制 。 通 过 这 个 机 制 可 以 
完全 将 前 向 传播 的 过 程 抽象 出 来 ， 使 得 训练 和 测试 时 不 需要 关心 神经 网 络 的 结构 或 是 参 
数 。5.2 节 中 给 出 的 训练 程序 男 外 一 个 问题 就 是 没有 将 训练 好 的 模型 持久 化 。5 .4 节 介 绍 
了 TensorFlow 保 存 模型 的 方法 以 及 TensorFlow 模 型 持久 化 的 原理 和 数据 的 格式 。 综 合 
5.3 和 5,4 节 中 提出 的 问题 ， 在 5.5 节 中 给 出 了 一 个 通过 TensorFlow 解 决 MNIST 问 题 的 
最 佳 实践 样 例 程序 。 这 个 样 例 将 神经 网 络 的 训练 、 测 试 和 使 用 拆 分 成 了 不 同 的 程序 ， 并 且 
将 神经 网 络 的 前 向 传播 过 程 抽象 成 了 一 个 独立 的 库 函 数 。 通 过 这 种 方式 可 以 将 训练 过 程 和 
测试 、 使 用 过 程 解 耦合 ， 从 而 使 得 整个 流程 更 加 灵活 。 
























































































































































(1) TensorFlow 提 供 了 封装 好 的 MNIST 数 据 集 处 理 类 ， 在 这 里 将 直接 使 用 这 个 类 。 关 于 如 何 处 理 图 像 数 据 将 在 第 7 


章 中 详细 介绍 。 



























































下 

















片 的 像素 矩阵 大 小 为 28x28， 但 为 了 更 清楚 地 展示 ， 图 5-1 右 侧 显示 的 为 14x14 和 矩阵 。 


























(2) ”MNIST 数 据 集中 














(3)_ 因为 神经 网 络 模 型 训练 过 程 中 的 随机 因素 ， 读 者 不 会 得 到 一 模 一 样 的 结果 。 












































(4) ”在 本 小 节 中 ， 不 同 神经 网 络 模 型 使 用 的 参数 和 5 ,2 .1 小 节 给 出 的 代码 中 的 参数 一 致 。 唯 一 的 例外 是 不 使 用 激活 
函数 的 模型 使 用 的 学 习 率 为 9.05。 

































































(5) 因为 神经 网 络 的 训练 过 程 存 在 随机 因素 ， 本 小 节 中 列 出 的 所 有 结果 都 是 16 次 运行 的 平均 值 。 
































(6)_ 平均 绝对 梯度 是 所 有 参数 梯度 绝对 值 的 平均 数 。 






























































2 第 3 章 中 介绍 过 张 量 的 名 称 后 面 有 :9， 表 示 是 某 个 计算 节点 的 第 一 个 输出 。 而 计算 节点 本 身 的 名 称 后 是 没有 :9 














(8) 2.1 节 中 有 关于 Protocol Buffer 的 具体 介绍 。 











(9) ”第 3 章 中 有 更 加 详细 的 关于 TensorF1Low 自 动 维护 的 集合 的 介绍 。 


第 6 章 ” 疼 像 识别 与 疮 积 神 经 网 络 















































在 第 5 章 中 ， 通 过 MNIST 数 据 集 验 证 了 第 4 章 介绍 的 神经 网 络 设 计 与 优化 的 方法 。 从 实验 
的 结果 可 以 看 出 ， 神 经 网 络 的 结构 会 对 神经 网 络 的 准确 率 产 生 巨 大 的 影响 。 本 章 将 介绍 一 
个 非常 常用 的 神经 网 络 结构 一 卷 积 神经 网 络 (Convolutional Neural Network， 
CNN) 。 卷 积 神经 网 络 的 应 用 非常 广泛 ， 在 自然 语言 处 理 包 -、 医 药 发 现 号 -、 灾 难 气候 发 
现 饵 -甚至 围棋 人 工 智 能 程序 钮 -中 都 有 应 用 。 本 章 将 主要 通过 卷 积 神经 网 络 在 图 像 识 别 上 
的 应 用 来 讲解 卷 积 神经 网 络 的 基本 原理 以 及 如 何 使 用 TensorF1Low 实 现 卷 积 神经 网 络 。 


首先 6.1 节 将 介绍 图 像 识 别 领域 解决 的 问题 以 及 图 像 识别 领域 中 经 典 的 数据 集 。 然 后 6.2 
节 将 介绍 卷 积 神经 网 络 的 主体 思想 和 整体 架构 。 接 着 6. 3 节 将 详细 讲解 卷 积 层 和 池 化 层 的 
网 络 结构 ， 以 及 TensorF1Low 对 这 些 网 络 结构 的 支持 。 在 6.4 节 中 将 通过 两 个 经 典 的 卷 积 
神经 网 络 模型 来 介绍 如 何 设计 卷 积 神经 网 络 的 架构 以 及 如 何 设置 每 一 层 神 经 网 络 的 配置 。 
这 一 节 将 通过 TensorFLow 实 现 LeNet -5 模型 ， 并 介绍 TensorFlow-Slim 来 实现 更 加 

杂 的 Inception-v3 模 型 中 的 Inception 模 块 。 最 后 在 6 .5 节 中 将 介绍 如 何 通 过 
TensorFlow 实 现 卷 积 神经 网 络 的 迁移 学 习 。 


6.1 图 像 识 别 问题 镜 介 及 经 典 数据 集 


视觉 是 人 类 认识 世界 非常 重要 的 一 种 知觉 。 对 于 人 类 来 说 ， 通 过 视觉 来 识别 手写 体 数字 、 
识别 图 片 中 的 物体 或 者 找 出 图 片 中 人 脸 的 轮廓 都 是 非常 简单 的 任务 。 然 而 对 于 计算 机 而 
言 ， 让 计算 机 识别 图 片 中 的 内 容 就 不 是 一 件 容易 的 事情 了 。 图 像 识别 问题 希望 借助 计算 机 
程序 来 处 理 、 分 析 和 理解 图 片 中 的 内 容 ， 使 得 计算 机 可 以 从 图 片 中 自动 识别 各 种 不 同 模式 
的 目标 和 对 像 。 比 如 在 第 5 章 中 介绍 的 MNIST 数 据 集 就 是 通过 计算 机 来 识别 图 片 中 的 手写 
体 数字 。 图 像 识别 问题 作为 人 工 智 能 的 一 个 重要 领域 ， 在 最 近 儿 年 已 经 取得 了 很 多 突破 性 
的 进展 。 本 章 将 要 介绍 的 卷 积 神经 网 络 就 是 这 些 突破 性 进展 背后 的 最 主要 技术 支持 。 
6-1 中 显示 了 图 像 识别 的 主流 技术 在 MNIST 数 据 集 上 的 错误 率 随 着 年 份 的 发 展 趋势 图 。 
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图 6-1 不 同 算法 在 MNIST 数 据 集 上 最 好 表现 变化 趋势 图 岛 - 旬 


图 6-1 中 最 下 方 的 虚线 表示 人 工 标注 的 错误 率 ， 其 他 不 同 的 线段 表示 了 不 同 算法 的 错误 
率 。 从 图 6-1 上 可 以 看 出 ， 相 比 其 他 算法 ， 卷 积 神经 网 络 可 以 得 到 更 低 的 错误 率 。 而 且 通 
过 卷 积 神经 网 络 达 到 的 错误 率 已 经 非常 接近 人 工 标注 的 错误 率 了 。 在 MNIST 数 据 集 的 一 万 
个 测试 数据 上 ， 最 好 的 深度 学 习 算 法 只 会 比 人 工 识别 多 错 一 张 图 片 。 


MNIST 手 写 体 识别 数据 集 是 一 个 相对 简单 的 数据 集 ， 在 其 他 更 加 复杂 的 图 像 识别 数据 集 















































上 ， 卷 积 神经 网 络 有 更 加 突出 的 表现 。Cifar 数 据 集 就 是 一 个 影响 力 很 大 的 图 像 分 类 数据 
集 。Cifar 数 据 集 分 为 了 Cifar-10 和 Cifar-100 两 个 问题 ， 它 们 都 是 图 像 词 典 项 目 
(Visual Dictionary) 外 -中 800 万 张 图 片 的 一 个 子 集 。Cifar 数 据 集 中 的 图 片 为 
32x32 的 彩色 图 片 ， 这 些 图 片 是 由 Alex Krizhevsky 教 授 、Vinod Nair 博 士 和 
Geoffrey Hinton 教 授 整 理 的 。 

cifar-10 问 题 收集 了 来 自 10 个 不 同 种 类 的 60000 张 图 片 。 图 6-2 的 左 侧 显示 了 Cifar- 
10 数 据 集中 的 每 一 个 种 类 中 的 一 些 样 例 图 片 以 及 这 些 种 类 的 类 别名 称 ， 图 6-2 的 右 侧 给 出 
Cifar-10 中 一 张 飞 机 的 图 像 。 因 为 图 像 的 像素 仅 为 32x32， 所 以 放大 之 后 图 片 是 比较 模 
糊 的 ， 但 隐约 还 是 可 以 看 出 飞机 的 轮廓 。Cifar 官 网 
https://www.cs.toronto.edu/~kriz/cifar.html 提 供 了 不 同 格式 的 Cifar 数 据 
集 下 载 ， 具 体 的 数据 格式 这 里 不 再 袭 述 。 
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图 6-2 Cifar-10 数 据 集 样 例 图 片 


和 MNIST 数 据 集 类 似 ，Cifar-10 中 的 图 片 大 小 都 是 固定 的 且 每 一 张 图片 中 仪 包含 一 个 种 
类 的 实体 鱼 -。 但 和 MNIST 相 比 ，Cifar 数 据 集 最 大 的 区 别 在 于 图 片 由 黑白 变 成 的 彩色 ， 
且 分 类 的 难度 也 相对 更 高 。 在 Cifar-10 数 据 集 上 ， 人 工 标注 的 正确 率 大 概 为 94% 印 -， 这 
比 MNIST 数 据 集 上 的 人 工 表 现 要 低 很 多 。 图 6-3 给 出 了 MNIST 和 Cifar-10 数 据 集中 比较 
难以 分 类 的 图 片 样 例 。 在 图 6- 3 左 侧 的 四 张 图 片 给 出 了 cifar-10 数 据 集中 比较 难 分 类 的 
图 片 ， 直 接 从 图 片上 看 ， 人 类 也 很 难 判断 图 片上 实体 的 类 别 。 图 6- 3 右 侧 的 四 张 图 片 给 出 
了 MNIST 数 据 集中 难度 较 高 的 图 片 。 在 这 些 难 度 高 的 图 片上 ， 人 类 还 是 可 以 有 一 个 比较 准 
确 的 猜测 。 目 前 在 Cifar -10 数 据 集 上 最 好 的 图 像 识别 算法 正确 率 为 95 .59% G-， 达 到 
个 正确 率 的 算法 同样 使 用 了 卷 积 神经 网 络 。 
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图 6-3 MNIST 和 Cifar-10 数 据 集 中 分 类 难度 较 高 的 样 例 


无 论 是 MNIST 数 据 集 还 是 Cifar 数 据 集 ， 相 比 真 实 环境 下 的 图 像 识别 问题 ， 有 2 个 最 大 的 
问题 。 第 一 ， 现 实生 活 中 的 图 片 分 辨 率 要 远 高 于 32x32， 而 且 网 像 的 分 辨 率 也 不 会 是 固定 
的 。 第 二 ， 现 实生 活 中 的 物体 类 别 很 多 ， 无 论 是 10 种 还 是 100 种 都 远 远 不 够 ， 而 且 一 张 图 
片 中 不 会 只 出 现 一 个 种 类 的 物体 。 为 了 更 加 贴近 真实 环境 下 的 图 像 识别 问题 ， 由 斯 坦 福 大 
学 (Stanford University) 的 李 飞 飞 (Feifei Li) 教授 带头 整理 的 ImageNet 很 
大 程度 地 解决 了 这 两 个 问题 。 


ImageNet 是 一 个 基于 WordNet -的 大 型 图 像 数 据 库 。 在 ImageNet 中 ， 将 近 1560 万 医 
片 被 关联 到 了 WordNet 的 大 约 20000 个 名 词 同义词 集 上 。 目 前 每 一 个 与 TmageNet 相 关 的 
WordNet 同 义 词 集 都 代表 了 现实 世界 中 的 一 个 实体 ， 可 以 被 认为 是 分 类 问题 中 的 一 个 类 
别 。ImageNet 中 的 图 片 都 是 从 互联 网 上 息 取 下 来 的 ， 并 且 通 过 亚 马 还 的 人 工 标 注 服 务 
CAmazon Mechanical Turk) 将 图 片 分 类 到 WordNet 的 同义词 集 上 ”和 一 。 在 
ImageNet 的 图 片 中 ， 一 张 图 片 中 可 能 出 现 多 个 同义词 集 所 代表 的 实体 。 


图 6- 4 展示 了 ImageNet 中 的 一 张 图 片 ， 在 这 张 图 片上 用 几 个 矩形 框 出 了 不 同 实体 的 轮 
廊 。 在 物体 识别 问题 中 ， 一 般 将 用 于 框 出 实体 的 矩形 称 为 bounding box。 在 图 6-4 中 总 
共 可 以 找到 四 个 实体 ， 其 中 有 两 把 椅子 、 一 个 人 和 一 条 狗 。 类 似 图 6-4 中 所 示 ， 
ImageNet 的 部 分 图 片 中 的 实体 轮廓 也 被 标注 了 出 来 ， 以 用 于 更 加 精确 的 图 像 识 别 。 















































图 片 以 及 标注 出 来 的 实体 轮廓 上 2 


4 











图 6-4 ImageNet 样 侦 

















ImageNet 每 年 都 举办 图 像 识 别 相关 的 竞赛 (ImageNet Large Scale Visual 
Recognition Challenge，ILSVRC) ， 而 且 每 年 的 竞赛 都 会 有 一 些 不 同 的 问题 ， 这 
些 问 题 基 本 涵盖 了 图 像 识 别 的 主要 研究 方向 。ImageNet 的 官网 http://www,image- 
net .org/challenges/LSVRC 列 出 了 历届 ILSVRC 竞 赛 的 题目 和 数据 集 。 不 同年 份 的 
pa SN 本 书 将 着 重 介绍 使 用 得 最 多 的 ILSVRC2012 图 像 分 
o 


ILSVRC2012 图 像 分 类 数据 集 的 任务 和 Cifar 数 据 集 是 基本 一 致 的 ， 也 是 识别 图 像 中 的 主 
要 物体 。ILSVRC2012 图 像 分 类 数据 集 包 含 了 来 自 1000 个 类 别 的 120 万 张 图 片 ， 其 中 每 
张 图 片 属于 且 只 属于 一 个 类 别 。 因 为 ITLSVRC2012 图 像 分 类 数据 集中 的 图 片 是 直接 从 互联 
网 上 疏 取 得 到 的 ， 所 以 图 片 的 大 小 从 几 千 字 节 到 几 百 万 字 节 不 等 。 


图 6-5 给 出 了 不 同 算法 在 ImageNet 图 像 分 类 数据 集 上 的 top -5 正确 率 。top-N 正 确 率 指 
的 是 图 像 识别 算法 给 出 前 N 个 答案 中 有 一 个 是 正确 的 概率 。 在 图 像 分 类 问题 上 ， 很 多 学 术 
论文 都 将 前 N 个 答案 的 正确 率 作为 比较 的 方法 ， 其 中 N 的 取 值 一 般 为 3 或 5。 从 图 6-5 中 可 
以 看 出 ， 在 更 加 复杂 的 ImageNet 问 题 上 ， 基 于 卷 积 神经 网 络 的 图 像 识 别 算法 可 以 远 远 超 
过 人 类 的 表现 。 在 图 6-5 的 左 侧 对 比 了 传统 算法 与 深度 学 习 算 法 的 正确 率 。 从 图 中 可 以 看 
出 ， 深 度 学 习 ， 特 别 是 卷 积 神经 网 络 ， 给 图 像 识别 问题 带 来 了 质 的 飞跃 。2013 年 之 后 ， 

基本 上 所 有 的 研究 都 集中 到 了 深度 学 习 算 法 上 。 从 6 ,2 节 开 始 将 具体 介绍 卷 积 神经 网 络 的 
基本 原理 ， 以 及 如 何 通 过 TensorFlow 实 现 卷 积 神经 网 络 。 
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图 6-5 不 同 算法 在 ImageNet ILSVRC2012 图 像 分 类 数据 集 上 的 正确 率 


6.2 卷 积 神经 网 络 简介 


在 6.1 节 中 介绍 图 像 识别 问题 时 ， 已 经 多 次 提 到 了 卷 积 神经 网 络 。 卷 积 神经 网 络 在 6 ,1 节 
中 介绍 的 所 有 图 像 分 类 数据 集 上 有 非常 突出 的 表现 。 在 前 面 的 章节 中 所 介绍 的 神经 网 络 每 
两 层 之 间 的 所 有 结 点 都 是 有 边 相 连 的 ， 所 以 本 书 称 这 种 网 络 结构 为 全 连接 层 网 络 结构 。 为 
了 将 只 包含 全 连接 层 的 神经 网 络 与 卷 积 神经 网 络 、 循 环 神经 网 络 9- 区 分 开 ， 本 书 将 只 包 
含 全 连接 层 的 神经 网 络 称 之 为 全 连接 神经 网 络 。 在 第 4 章 和 第 5 章 中 介绍 的 神经 网 络 都 为 

全 连接 神经 网 络 。 在 这 一 节 中 将 讲解 卷 积 神经 网 络 与 全 连接 神经 网 络 的 差异 ， 并 介绍 组 成 
和 
对 比 图 。 















































全 连接 神经 网 络 (a) 卷 积 神经 网 络 (b) 


图 6-6 全 连接 神经 网 络 与 卷 积 神经 网 络 结构 示意 图 
虽然 图 6-6 中 显示 的 全 连接 神经 网 络 结构 和 卷 积 神经 网 络 的 结构 直观 上 差异 比较 大 ， 但 实 


际 上 它们 的 整体 架构 是 非常 相似 的 。 从 图 6-6 中 可 以 看 出 ， 卷 积 神经 网 络 也 是 通过 一 层 一 
层 的 节点 组 织 起 来 的 。 和 全 连接 神经 网 络 一 样 ， 卷 积 神经 网 络 中 的 每 一 个 节点 都 是 一 个 神 











经 元 加-。 在 全 连接 神经 网 络 中 ， 每 相 邻 两 层 之 间 的 节点 都 有 边 相 连 ， 于 是 一 般 会 将 每 
层 全 连接 层 中 的 节点 组 织 成 一 列 ， 这 样 方便 显示 连接 结构 。 而 对 于 卷 积 神经 网 络 ， 相 邻 两 
层 之 间 只 有 部 分 节点 相连 ， 为 了 展示 每 一 层 神经 元 的 维度 ， 一 般 会 将 每 一 层 卷 积 层 的 节点 
组 织 成 一 个 三 维 矩 阵 。 


除了 结构 相似 ， 卷 积 神经 网 络 的 输入 输出 以 及 训练 流程 与 全 连接 神经 网 络 也 基本 一 致 。 以 
图 像 分 类 为 例 ， 卷 积 神经 网 络 的 输入 层 就 是 图 像 的 原始 像素 ， 而 输出 层 中 的 每 一 个 节点 代 
表 了 不 同类 别 的 可 信 度 。 这 和 全 连接 神经 网 络 的 输入 输出 是 一 致 的 。 类 似 的 ， 第 4 章 中 介 
绍 的 损失 函数 以 及 参数 的 优化 过 程 也 都 适用 于 卷 积 神经 网 络 。 在 后 面 的 章节 中 会 看 到 ， 在 
TensorFlow 中 训练 一 个 卷 积 神经 网 络 的 流程 和 训练 一 个 全 连接 神经 网 络 没 有 任何 区 别 。 
卷 积 神经 网 络 和 全 连接 神经 网 络 的 唯一 区 别 就 在 于 神经 网 络 中 相 邻 两 层 的 连接 方式 。 在 进 
人 本 节 将 先 介绍 为 什么 全 连接 神经 网 络 无 法 很 好 地 
理 图 像 数 据 。 


使 用 全 连接 神经 网 络 处 理 图 像 的 最 大 问题 在 于 全 连接 层 的 参数 太 多 。 对 于 MNIST 数 据 ， 
一 张 图 片 的 大 小 是 28x28x1， 其 中 28x28 为 图 片 的 大 小 ，x1 表 示 图 像 是 黑白 的 ， 只 有 
个 色彩 通道 。 假 设 第 一 层 隐藏 层 的 节点 数 为 5090 个 ， 那 么 一 个 全 链接 层 的 神经 网 络 将 有 
28x28x500+500=392500 个 参数 。 当 图 片 更 大 时 ， 比 如 在 Cifar -10 数 据 集中 ， 图 片 的 
大 小 为 32x32x3， 其 中 32x32 表 示 图 片 的 大 小 ，x3 表 示 图 片 是 通过 红 绿 蓝 三 个 色彩 通道 
(channel) 表示 的 9-。 这 样 输 入 层 就 有 3072 个 节点 ， 如 果 第 一 层 全 连接 层 仍然 是 50( 
个 节点 ， 那 么 这 一 层 全 链接 神经 网 络 将 有 3072x500+500x150 万 个 参数 。 参 数 增多 除了 
导致 计算 速度 减 慢 ， 还 很 容易 导致 过 拟 合 问题 。 所 以 需要 一 个 更 合理 的 神经 网 络 结构 来 有 
效 地 减少 神经 网 络 中 参数 个 数 。 卷 积 神经 网 络 就 可 以 达到 这 个 目的 。 


图 6-7 给 出 了 一 个 更 加 具体 的 卷 积 神经 网 络 架构 图 。 
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ET 


图 6-7 用 于 图 像 分 类 问题 的 一 种 卷 积 神经 网 络 架构 图 


在 卷 积 神经 网 络 的 前 几 层 中 ， 每 一 层 的 节点 都 被 组 织 成 一 个 三 维 矩阵 。 比 如 处 理 Cifar - 
10 数 据 集中 的 图 片 时 ， 可 以 将 输入 层 组 织 成 一 个 32x32x3 的 三 维 矩 阵 。 图 6-7 中 虚线 部 

分 展示 了 卷 积 神经 网 络 的 一 个 连接 示意 图 ， 从 图 中 可 以 看 出 卷 积 神经 网 络 中 前 几 层 中 每 一 
个 节点 只 和 上 一 层 中 部 分 的 节点 相连 。 卷 积 神经 网 络 的 具体 连接 方式 将 在 6.3 节 中 介绍 。 

一 个 卷 积 神经 网 络 主要 由 以 下 5 种 结构 组 成 : 


1. 输入 层 。 输 入 层 是 整个 神经 网 络 的 输入 ， 在 处 理 图 像 的 卷 积 神经 网 络 中 ， 它 一 般 代 表 
了 一 张 图 片 的 像素 矩阵 。 比 如 在 图 6-7 中 ， 最 左 侧 的 三 维 窍 阵 就 可 以 代表 一 张 图 片 。 其 中 
三 维 矩阵 的 长 和 宽 代 表 了 图 像 的 大 小 ， 而 三 维 矩 阵 的 深度 代表 了 图 像 的 色彩 通道 
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Cchanne1L) 。 比 如 黑白 图 片 的 深度 为 1， 而 在 RGB 色彩 模式 下 ， 图 像 的 深度 为 3。 从 输 
入 层 开 始 ， 卷 积 神经 网 络 通过 不 同 的 神经 网 络 结构 将 上 一 层 的 三 维 矩 阵 转化 为 下 一 层 的 三 
维 矩 阵 ， 直 到 最 后 的 全 连接 层 。 


2.， 卷 积 层 。 从 名 字 就 可 以 看 出 ， 卷 积 层 是 一 个 卷 积 神经 网 络 中 最 为 重要 的 部 分 。 和 传统 
全 连接 层 不 同 ， 卷 积 层 中 每 一 个 节点 的 输入 只 是 上 一 层 神经 网 络 的 一 小 块 ， 这 个 小 块 常用 
的 大 小 有 3x3 或 者 5x5。 卷 积 层 试图 将 神经 网 络 中 的 每 一 小 块 进行 更 加 深入 地 分 析 从 而 得 
到 抽象 程度 更 高 的 特征 。 一 般 来 说 ， 通 过 卷 积 层 处 理 过 的 节点 矩阵 会 变 得 更 深 ， 所 以 在 图 
6-7 中 可 以 看 到 经 过 卷 积 层 之 后 的 节点 矩阵 的 深度 会 增加 。 


3. 池 化 层 Pooling) 。 池 化 层 神经 网 络 不 会 改变 三 维 矩 阵 的 深度 ， 但 是 它 可 以 缩小 矩 
阵 的 大 小 。 池 化 操作 可 以 认为 是 将 一 张 分 辨 率 较 高 的 图 片 转化 为 分 辨 率 较 低 的 图 片 。 通 过 
ee 可 以 进一步 缩小 最 后 全 连接 层 中 节点 的 个 数 ， 从 而 达到 减少 整个 神经 网 络 中 参数 
4 目的 。 


4. 全 连接 层 。 如 图 6-7 所 示 ， 在 经 过 多 轮 卷 积 层 和 池 化 层 的 处 理 之 后 ， 在 卷 积 神经 网 络 

的 最 后 一 般 会 是 由 1 到 2 个 全 连接 层 来 给 出 最 后 的 分 类 结果 。 经 过 几 轮 卷 积 层 和 池 化 层 的 

处 理 之 后 ， 可 以 认为 图 像 中 的 信息 已 经 被 抽象 成 了 信息 含量 更 高 的 特征 。 我 们 可 以 将 卷 积 
层 和 池 化 层 看 成 自动 图 像 特征 提取 的 过 程 。 在 特征 提取 完成 之 后 ， 仍 然 需 要 使 用 全 连接 层 
来 完成 分 类 任务 。 


5. Softmax 层 。 和 第 4 章 中 介绍 的 一 样 ，Softmax 层 主要 用 于 分 类 问题 。 通 过 Softmax 
层 ， 可 以 得 到 当前 样 例 属于 不 同 种 类 的 概率 分 布 情况 。 


在 卷 积 神经 网 络 中 使 用 到 的 输入 层 、 全 连接 层 和 Softmax 层 在 第 4 章 中 都 有 过 详细 的 介 
二 在 下 面 的 6.3 节 中 将 详细 介绍 卷 积 神经 网 络 中 特殊 的 两 个 网 络 结构 一 
卷 积 层 和 池 化 层 。 


6.3 卷 积 神经 网 络 冲 用 结构 


6.2 节 已 经 大 致 介绍 了 卷 积 层 和 池 化 层 的 概念 ， 在 本 节 中 将 具体 介绍 这 两 种 网 络 结构 。 在 
下 面 的 两 个 小 节 中 将 分 别 介 绍 卷 积 层 和 池 化 层 的 网 络 结构 以 及 前 向 传播 的 过 程 ， 并 通过 
TensorFlow 实 现 这 些 网 络 结构 。 本 书 中 将 不 会 介绍 优化 卷 积 神经 网 络 的 数学 公式 ， 但 通 
过 TensorFlow 可 以 很 容易 地 完成 优化 的 过 程 。 


6.3.1 卷 积 层 


本 小 节 将 详细 介绍 卷 积 层 的 结构 以 及 其 前 向 传播 的 算法 。 图 6-8 中 显示 了 卷 积 层 神经 网 络 
结构 中 最 重要 的 部 分 ， 这 个 部 分 被 称 之 为 过 滤器 (filter) 或 者 内 核 (kernel) 。 
为 TensorF1ow 文 档 中 将 这 个 结构 称 之 为 过 滤器 〈filter) ， 所 以 在 本 书 中 将 统称 这 个 
结构 为 过 滤器 。 如 图 6-8 所 示 ， 过 滤器 可 以 将 当前 层 神 经 网 络 上 的 一 个 子 节 点 矩阵 转化 为 
人 单位 节点 矩阵 指 的 是 一 个 长 和 宽 都 为 1L， 但 深度 
Ys 也 吕 二 
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图 6-8 ” 卷 积 层 过 滤器 (filter) 结构 示意 图 G2) 


在 一 个 卷 积 层 中 ， 过 滤器 所 处 理 的 节点 矩阵 的 长 和 宽 都 是 由 人 工 指定 的 ， 这 个 节点 矩阵 的 
尺寸 也 被 称 之 为 过 滤器 的 尺寸 。 常 用 的 过 滤器 尺 十 有 3x3 或 5x5。 因为 过 滤器 处 理 的 矩阵 
深度 和 当前 层 神经 网 络 节点 矩阵 的 深度 是 一 致 的 ， 所 以 虽然 节点 乍 降 是 三 维 的 ， 但 过 滤器 
的 尺寸 只 需要 指定 两 个 维度 。 过 滤器 中 另外 一 个 需要 人 工 指定 的 设置 是 处 理 得 到 的 单位 节 
点 答 阵 的 深度 ， 这 个 设置 称 为 过 滤器 的 深度 。 注 意 过 滤器 的 尺寸 指 的 是 一 个 过 滤器 输入 节 
点 矩阵 的 大 小 ， 而 深度 指 的 是 输出 单位 节点 气 阵 的 深度 。 如 图 6-8 所 示 ， 左 侧 小 矩阵 的 尺 
寸 为 过 滤器 的 尺寸 ， 而 右 侧 单位 矩阵 的 深度 为 过 滤器 的 深度 。6 . 4 节 将 通过 一 些 经 典 卷 各 
神经 网 络 结构 来 了 解 如 何 设置 每 一 层 卷 积 层 过 滤器 的 尺寸 和 深度 。 

如 图 6-8 所 示 ， 过 滤器 的 前 向 传播 过 程 就 是 通过 左 侧 小 矩阵 中 的 节点 计算 出 右 侧 单位 矩阵 
中 节点 的 过 程 。 为 了 直观 地 解释 过 滤器 的 前 向 传播 过 程 ， 在 下 面 的 篇 幅 中 将 给 出 一 个 具体 
的 样 例 。 在 这 个 样 例 中 将 展示 如 何 通过 过 滤器 将 一 个 2x2x3 的 节点 矩阵 变化 为 一 个 1x1x5 
的 单位 节点 年 阵 。 一 个 过 滤器 的 前 向 传播 过 程 和 全 连接 层 相似 ， 它 总 共 需 要 
2x2x3x5+5=65 个 参数 ， 其 中 最 后 的 +5 为 偏 置 项 参数 的 个 数 。 假设 合用 VY a 


表示 对 于 输出 单位 节点 矩阵 中 的 第 i 个 节点 ， 过 滤器 输入 节点 (xy y, z ”) 的 权重 ,使 
用 b i eo 个 输出 节点 对 应 的 偏 置 项 参数 ， 那 么 单位 矩阵 中 的 第 革 个 节点 的 取 值 
9 (1) 为 : 


可 
OT 7 YY eye Wy) 


x=] y=] z=1 


其 中 a 。 。 为 过 滤器 中 节点 (x, y, z) ”的 取 值 ，f ”为 激活 函数 。 图 6-9 展 示 了 在 给 定 
a,，w。 和 bp。 的 情况 下 ， 使 用 ReLU 作 为 激活 函数 时 g 〈6) 的 计算 过 程 。 在 图 6-9 的 左 侧 
给 出 了 a 和 w 。 的 取 值 ， 这 里 通过 3 个 二 维和 矩阵 来 表示 一 个 三 维 矩 阵 的 取 值 ， 其 中 每 一 个 二 
维 矩 阵 表示 三 维 失 阵 在 某 一 个 深度 上 的 取 值 。 图 6- 9 中 符号 表示 点 积 ， 也 就 是 矩阵 中 对 
应 元 素 乘积 的 和 。 图 6-9 的 右 侧 显示 了 9 (6) 的 计算 过 程 。 如 果 给 出 w : 到 w 4。 和 b : 


























































































































到 b“， 那 么 也 可 以 类 似 地 计算 出 g (1) 到 g 《4) 的 取 值 。 如 果 将 a 和 w i 组 织 成 两 个 
向 量 ， 那 么 一 个 过 滤器 的 计算 过 程 完全 可 以 通过 第 3 章 中 介绍 的 向 量 乘法 来 完成 。 








Be 下 下 g(0)= f{[1 x2+2x0+0x1+(-1)x(-1)]+ 
国 | 1 Bx-2)+1x2+(-1)x0+(-2)x1]+ 


1 [1x0+0x1+2x(-D)+1x(-D)]+1) 
轴 国 图” 
=/{-3}=0 
图 6-9 使 用 过 滤器 计算 g (0) 取 值 的 过 程 示意 图 


上 面 的 样 例 已 经 介绍 了 在 卷 积 层 中 计算 一 个 过 滤器 的 前 向 传播 过 程 。 卷 积 层 结构 的 前 向 传 
播 过 程 就 是 通过 将 一 个 避 沪 知人 欠 宙 经 网络 -出 层 的 证 上 镍 移 动 到 4 下 区 ， hs 
算 每 一 个 对 应 的 单位 矩阵 得 到 的 。 图 6-10 展 示 了 卷 积 层 结构 前 向 传播 的 过 程 。 为 了 更 好 
地 可 视 化 过 滤器 的 移动 过 程 ， 图 6-10 中 使 用 的 节 0 都 为 1。 在 图 6-10 中 ， 展 示 
了 在 3x3 和 矩 阵 上 使 用 2x2 过 滤器 的 卷 积 层 前 向 传播 过 程 。 在 这 个 过 程 中 ， 首 先 将 这 个 过 滤 
器 用 于 左上 角子 矩阵 ， 然 后 移动 到 右上 角 和 矩阵 ， 再 到 左下 角 和 矩阵 ， 最 后 到 右 下 角 和 矩阵 。 过 
滤器 每 移动 一 次 ， 可 以 计算 得 到 一 个 值 〈 当 深度 为 Kk 时 会 计算 出 k 个 值 ) 。 将 这 些 数值 拼 
接 成 一 个 新 的 矩阵 ， 就 完成 了 卷 积 层 前 向 传播 的 过 程 。 图 6- 19 的 右 侧 显 示 了 过 滤器 在 移 
动 过 程 中 计算 得 到 的 结果 与 新 和 矩阵 中 节点 的 对 应 关系 。 









































图 6-10 卷 积 层 前 向 传播 过 程 示 意图 


当 过 滤器 的 大 小 不 为 1x1 时 ， 卷 积 层 前 向 传播 得 到 的 矩阵 的 尺寸 要 小 于 当前 层 和 矩阵 的 尺 
寸 。 如 图 6-10 所 示 ， 当 前 层 和 矩阵 的 大 小 为 3x3( 图 6-10 左 侧 和 矩阵 ) ， 而 通过 卷 积 层 前 向 
传播 算法 之 后 ， 得 到 的 矩阵 大 小 为 2x2( 图 6-10 右 侧 和 矩阵 ) 。 为 了 避免 尺寸 的 变化 ， 可 
以 在 当前 层 和 矩阵 的 边界 上 加 入 全 0 填充 (zero-padding) 。 这 样 可 以 使 得 卷 积 层 前 向 传 
播 结果 和 矩阵 的 大 小 和 当前 层 矩 阵 保持 一 致 。 图 6- 11 显 示 了 使 用 全 6 填充 后 卷 和 ! 层 前 向 传播 
过 程 示意 图 。 从 图 中 可 以 看 出 ， 加 入 一 层 全 0 填充 后 ， 得 到 的 结构 矩阵 大 小 就 为 3x3 了 。 















































图 6-11 使 用 了 全 0 填充 (zero-padding) 的 卷 积 层 前 向 传播 示意 图 上 2 
除了 使 用 全 0 填充 ， 还 可 以 通过 设置 过 滤器 移动 的 步 长 来 调整 结果 和 矩阵 的 大 小 。 在 图 6-10 


和 图 6-11 中 ， 过 滤器 每 次 都 只 移动 一 格 。 图 6-12 中 显示 了 当 移 动 步 长 为 2 且 使 用 全 0 填充 
时 ， 卷 积 层 前 向 传播 的 过 程 。 


























图 6-12 过 滤器 移动 步 长 为 2 且 使 用 全 0 填充 时 卷 积 层 前 向 传播 过 程 示意 图 
从 图 6-12 上 可 以 看 出 ， 当 长 和 宽 的 步 长 均 为 2 时 ， 过 滤器 每 隔 2 步 计算 一 次 结果 ， 所 以 得 
ee 半 。 下 面 的 公式 给 出 了 在 同时 使 用 全 0 填充 时 
2 阵 芯 人 小。 


OUlongth = | enet jf tridelength | 

















OULywidth = | Dean / SIride wi | 
其 中 out so 表示 输出 层 和 矩阵 的 长 度 ， 它 等 于 输入 层 矩 阵 长 度 除 以 长 度 方 同 上 的 步 长 的 


向 上 取 整 值 。 类 似 的 ，out ,i,,,， 表 示 输 出 层 矩 阵 的 宽度 ， 它 等 于 输入 层 和 矩阵 宽度 除 以 宽 
度 方向 上 的 步 长 的 向 上 取 整 值 。 如 果 不 使 用 全 90 填充， 下 面 的 公式 给 出 了 结果 和 矩阵 的 大 


小 。 


OUllength 和 | (ryength fi leNength 1) / striderengt | 





OuUl with 一 | (as filtervwiar +* 1) / Stridewia | 


在 图 6-10、 图 6-11 以 及 图 6-12 中 ， 只 讲解 了 移动 过 滤器 的 方式 ， 没 有 涉及 到 过 滤器 中 
的 参数 如 何 设 定 ， 所 以 在 这 些 图 片 中 结果 和 矩阵 中 并 没有 填 上 有 具体 的 值 。 在 卷 积 神经 网 络 
中 ， 每 一 个 卷 积 层 中 使 用 的 过 滤器 中 的 参数 都 是 一 样 的 。 这 是 卷 积 神经 网 络 一 个 非常 重要 
的 性 质 。 从 直观 上 理解 ， 共 享 过 滤器 的 参数 可 以 使 得 图 像 上 的 内 容 不 受 位 置 的 影响 。 以 
MNIST 手 写 体 数字 识别 为 例 ， 无 论 数 字 7“17 出 现在 左上 角 还 是 右 下 角 ， 图 片 的 种 类 都 是 不 
变 的 。 因 为 在 左上 角 和 右 下 角 使 用 的 过 滤器 参数 相同 ， 所 以 通过 卷 积 层 之 后 无 论 数字 在 图 
像 上 的 哪个 位 置 ， 得 到 的 结果 都 一 样 。 


共享 每 一 个 卷 积 层 中 过 滤器 中 的 参数 可 以 巨 幅 减少 神经 网 络 上 的 参数 。 以 Cifar -10 问 题 
为 例 ， 输 入 层 和 矩阵 的 维度 是 32x32x3。 假 设 第 一 层 卷 积 层 使 用 尺寸 为 5x5， 深 上 度 为 16 的 
过 滤器 ， 那 么 这 个 卷 积 层 的 参数 个 数 为 5x5x3x16+16=1216 个 。6.2 节 中 提 到 过 ， 使 用 
500 个 隐藏 节点 的 全 连接 层 将 有 1.5 百 万 个 参数 。 相 比 之 下 ， 卷 积 层 的 参数 个 数 要 远 远 小 
于 全 连接 层 。 而 且 卷 积 层 的 参数 个 数 和 图 片 的 大 小 无 关 ， 它 只 和 过 滤器 的 尺寸 、 深 度 以 及 
当前 层 节点 矩阵 的 深度 有 关 。 这 使 得 卷 积 神经 网 络 可 以 很 好 地 扩展 到 更 大 的 图 像 数 据 上 。 


结合 过 滤器 的 使 用 方法 和 参数 共享 的 机 制 ， 图 6-13 给 出 了 使 用 了 全 9 填充 、 步 长 为 2 的 卷 
积 层 前 向 传播 的 计算 流程 。 
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图 6-13” 卷 积 层 前 向 传播 过 程 样 人 


图 6-13 给 出 了 过 滤器 上 权重 的 取 值 以 及 偏 置 项 的 取 值 ， 图 6-9 中 所 示 的 计算 方法 ， 
可 以 得 到 每 一 个 格子 的 具体 取 值 。 下 面 的 公 给 出 中 二 上 上 骨 格 子 取 值 的 证 曝 方法 其 他 格 
子 可 以 依次 类 推 。 


ReLU(Oxl+0x(-1)+0x0+1*2+1)=ReLU(3)=3 


TensorFlow 对 卷 积 神经 网 络 提供 了 非常 好 的 支持 ， 下 面 的 程序 实现 了 一 个 卷 积 层 的 前 向 
传播 过 程 。 从 以 下 代码 可 以 看 出 ， 通 过 TensorFlow 实 现 卷 积 层 是 非常 方便 的 。 



































# 通过 tf.,get_variable 的 方式 创建 过 滤器 的 权重 变量 和 偏 置 项 变量 。 上 面 介绍 
了 卷 积 层 


# 的 参数 个 数 只 和 过 滤器 的 尺寸 、 深 度 以 及 当前 层 节点 矩阵 的 深度 有 关 ， 所 以 这 里 
声明 的 参数 变 


# 量 是 一 个 四 维 矩阵 ， 前 面 两 个 维度 代表 了 过 滤器 的 太 寸 ， 第 三 个 维度 表示 当前 层 
的 深度 ， 第 四 


# 个 维度 表示 过 滤器 的 深度 。 

filter weight = tf.get variablel( 
'weights', [5, 5, 3, 16], 
initializer=tf.truncated normal initializer(stddev=0.1)) 


# 和 卷 积 层 的 权重 类 似 ， 当 前 层 算 阵 上 不 同位 置 的 偏 置 项 也 是 共享 的 ， 所 以 总 共有 
F 一 层 深度 个 不 


同 的 偏 置 项 。 本 样 例 代码 中 16 为 过 滤器 的 深度 ， 也 是 神经 网 络 中 下 一 层 节 点 算 阵 
J 深度。 





biases = tf.get variablel( 


'biases', [16], initializer=tf.constant_ initializer(0.1)) 


# tf.nn.conv2d 提 供 了 一 个 非常 方便 的 函数 来 实现 卷 积 层 前 向 传播 的 算法 。 这 个 
函数 的 第 一 个 输 


# 入 为 当前 层 的 节点 沧 阵 。 注 意 这 个 矩阵 是 一 个 四 维 和 矩阵， 后 面 三 个 维度 对 应 一 个 
节点 矩阵 ， 第 一 


# 维 对 应 一 个 输入 batch。 比 如 在 输入 层 ，input[0, :，,:,:] 表 示 第 一 张 图 片 ， 
ME ll | 


# 表示 第 三 张 图 片 ， 以 此 类 推 。tf .nn.conv2d 第 三 个 参数 提供 了 卷 积 层 的 权重 ， 
第 三 个 参数 为 不 


# 同 维度 上 的 步 长 。 虽 然 第 三 个 参数 提供 的 是 一 个 长 度 为 4 的 数组 ， 但 是 第 一 维和 
最 后 一 维 的 数字 


# 要 求 一 定 是 1。 这 是 因为 卷 积 层 的 步 长 只 对 和 矩阵 的 长 和 宽 有 效 。 最 后 一 个 参数 是 
填充 (padding) 





# 的 方法 ，TensorFlow 中 提供 SAME 或 是 VALID 两 种 选择 。 其 中 SAME 表 示 添 加 全 0 
填充 (如 


# 图 6-11 所 示 ) ，“VALID”“ 表 示 不 添加 《如 图 6-19 所 示 ) 。 
conv = tf.nn.conv2d( 


input, filter weight, strides= 
[1, 1, 1, 1], padding="'SAME') 


# tf.nn.bias_add 提 供 了 一 个 方便 的 函数 给 每 一 个 节点 加 上 偏 置 项 。 注 意 这 里 不 
能 直接 使 用 加 


ee EE 因为 矩阵 上 不 同位 置 上 的 节点 都 需要 加 上 同样 的 偏 置 项 。 如 图 6-13 所 示 ， 虽 
然 下 一 层 


# 经 网 络 的 大 小 为 2x2， 但 是 偏 置 项 只 有 一 个 数 〈 因 为 深度 为 1) ， 而 2x2 和 矩阵 中 的 
每 一 个 值 都 需 


# 要 加 上 这 个 偏 置 项 。 
bias = tf.nn.bias add(conv, biases) 
# 将 计算 结果 通过 ReLU 激 活 函 数 完成 去 线性 化 。 


actived conv = tf.nn.relu(bias) 


6.3.2 池 化 层 


6.2 节 介绍 过 卷 积 神经 网 络 的 大 致 架构 。 从 图 6-7 中 可 以 看 出 ， 在 卷 积 层 之 间 往 往 会 加 上 
一 个 池 化 层 (pooling layer) 。 池 化 层 可 以 非常 有 效 地 缩小 矩阵 的 尺寸 9-， 从 而 减 
少 最 后 全 连接 层 中 的 参数 。 使 用 池 化 层 既 可 以 加 快 计算 速度 也 有 防止 过 拟 合 问 题 的 作用 


20)_ 
oo 


和 6 ,3.1 小 节 中 介绍 的 卷 积 层 类 似 ， 池 化 层 前 向 传播 的 过 程 也 是 通过 移动 一 个 类 似 过 滤器 
的 结构 完成 的 。 不 过 池 化 层 过 滤器 中 的 计算 不 是 节点 的 加 权 和 ， 而 是 采用 更 加 简单 的 最 大 
值 或 者 平均 值 运算 。 使 用 最 大 值 操 作 的 池 化 层 被 称 之 为 最 大 池 化 层 (max pooling) ， 
这 是 被 使 用 得 最 多 的 池 化 层 结构 。 使 用 平均 值 操作 的 池 化 层 被 称 之 为 平均 池 化 层 
Caverage pooling) 。 其 他 池 化 层 在 实践 中 使 用 的 比较 少 ， 本 书 不 做 过 多 的 介绍 。 


与 卷 积 层 的 过 滤器 类 似 ， 池 化 层 的 过 滤器 也 需要 人 工 设 定 过 滤器 的 太 寸 、 是 否 使 用 全 0 填 
充 以 及 过 滤器 移动 的 步 长 等 设置 ， 而 且 这 些 设置 的 意义 也 是 一 样 的 。 卷 积 层 和 池 化 层 中 过 
滤器 移动 的 方式 是 相似 的 ， 唯 一 的 区 别 在 于 卷 积 层 使 用 的 过 滤器 是 横路 整个 深度 的 ， 而 池 
化 层 使 用 的 过 滤器 只 影响 一 个 深度 上 的 节点 。 所 以 池 化 层 的 过 滤器 除了 在 长 和 宽 两 个 维度 
移动 之 外 ， 它 还 需要 在 深度 这 个 维度 移动 。 图 6-14 展 示 了 一 个 最 大 池 化 层 前 向 传播 计算 


过 程 。 





























图 6-14 3x3x2 节 点 矩阵 经 过 全 0 填充 且 步 长 为 2 的 最 大 池 化 层 前 向 传播 过 程 示意 图 。 























在 图 6-14 中 ， 不 同 颜色 或 者 不 同 线段 〈 虚 线 或 者 实 线 ) 代表 了 不 同 的 池 化 层 过 滤器 。 从 
图 6-14 中 可 以 看 出 ， 池 化 层 的 过 滤器 除了 在 长 和 宽 的 维度 上 移动 ， 它 还 需要 在 深度 的 维 
度 上 移动 。 下 面 的 TensorFlow 程 序 实现 了 最 大 池 化 层 的 前 向 传播 算法 。 





























# tf.nn. max_poo0l 实 现 了 最 大 池 化 层 的 前 向 传播 过 程 ， 它 的 参数 和 
tf ,nn.conv2d 函 数 类 似 。 


# ksize 提 供 了 过 滤器 的 尺寸 ，strides 提 供 了 步 长 信息 ，padding 提 供 了 是 否 使 
用 全 0 填充 。 


pool = tf.nn.max_pool(actived conv, ksize=[1, 3, 3, 11], 


strides= 
[1, 2, 2, 1], padding='SAME') 


对 比 池 化 层 和 卷 积 层 前 向 传播 在 TensorFlow 中 的 实现 ， 可 以 发 现 函 数 的 参数 形式 是 相似 
的 。 在 tf.nn.max_pool 函 数 中 ， 首 先 需 要 传 入 当前 层 的 节点 矩阵 ， 这 个 矩阵 是 一 个 四 
维和 矩阵 ， 格 式 和 tf .nn .conv2d 函 数 中 的 第 一 个 参数 一 致 。 第 二 个 参数 为 过 滤器 的 尺 
寸 。 虽 然 给 出 的 是 一 个 长 度 为 4 的 一 维 数组 ， 但 是 这 个 数组 的 第 一 个 和 最 后 一 个 数 必须 为 
1。 这 意味 着 池 化 层 的 过 滤器 是 不 \ 可 以 跨 不 同 输入 样 例 或 者 节点 矩阵 深度 的 。 在 实际 应 用 
中 使 用 得 最 多 的 池 化 层 过 滤器 尺寸 为 [1, 2, 2,1] 或 者 [1,3,3,1]。 


tf,nn.max_pool1 函 数 的 第 三 个 参数 为 步 长 ， 它 和 tf,nn.conv2d 函 数 中 步 长 的 意义 是 
一 样 的 ， 而 且 第 一 维和 最 后 一 人 这 意味 着 在 TensorFLow 中 ， 池 化 层 不 能 减 
少 节点 矩阵 的 深度 或 者 输入 样 例 的 个 数 。tf .nn,max_poo1 函 数 的 最 后 一 个 参数 指定 了 

否 使 用 全 0 填充 。 这 个 参数 也 只 有 两 种 取 值 一 VALID 或 者 SAME， 其 中 VALID 表示 不 使 
用 全 0 填充 ，SAME 表 示 使 用 全 0 填充 。TensorF1ow 还 提供 了 tf,nn.avg_poo1 来 实现 平 
均 池 化 层 。tf ,nn.avg_poo1 函 数 的 调用 格式 和 tf ,nn.max_pool1 函 数 是 一 致 的 。 










































































6.4 ”经 典 苍 积 网 络 模型 


在 6.3 小 节 中 介绍 了 卷 积 神经 网 络 特 有 的 两 种 网 络 结构 卷 积 层 和 池 
化 层 。 然 而 ， 通 过 这 些 网 络 结构 任意 组 合 得 到 的 神经 网 络 有 无 限 多 种 ， 
怎样 的 神经 网 络 更 有 可 能 解决 真实 的 图 像 处 理 问 题 呢 ? 这 一 节 将 介绍 一 
些 经 典 的 卷 积 神经 网 络 的 网 络 结构 。 通 过 这 些 经 典 的 卷 积 神经 网 络 的 网 
络 结构 可 以 总 结 出 卷 积 神经 网 络 结构 设计 的 一 些 模式 。 在 6.4.1 小 节 中 将 
有 具体 介绍 LeNet-5 模 型 ， 并 给 出 一 个 完整 的 TensorFlow 程 序 来 实现 LeNet- 
5 模型 。 通 过 这 个 模型 ， 将 给 出 卷 积 神经 网 络 结构 设计 的 一 个 通用 模 
式 。 然 后 6.4.2 小 节 将 介绍 设计 卷 积 神经 网 络 结构 的 另外 一 种 思路 一 -一 
Inception 模 型 。 这 个 小 节 将 简单 介绍 TensorFlow-Slim 工 具 ， 并 通过 这 个 
工具 实现 谷歌 提出 的 Inception-v3 模 型 中 的 一 个 模块 。 


6.4.1 LeNet-5 模 型 


LeNet-5 模 型 是 Yann LeCun 教 授 于 1998 年 在 论文 Gradient-based learning 
applied to document recognition 苗 中 提出 的 ， 它 是 第 一 个 成 功 应 用 于 数字 
识别 问题 的 卷 积 神经 网 络 。 在 MNIST 数 据 集 上 ，LeNet-5 模 型 可 以 达到 
大 约 99.2% 的 正确 率 。LeNet-5 模 型 总 共有 7 层 ， 图 6-15 展 示 了 LeNet-5 模 
型 的 架构 。 
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图 6-15 ”LeNet-5 模 型 结构 图 鱼 
在 下 面 的 篇 幅 中 将 详细 介绍 LeNet-5 模 型 每 一 层 的 结构 号 。 
第 一 层 ， 卷 积 层 


这 一 层 的 输入 就 是 原始 的 图 像 像素 ，LeNet-5 模 型 接受 的 输入 层 大 小 为 








32x32x1。 第 一 个 卷 积 层 过 滤器 的 尺寸 为 5x5， 深 度 为 6， 不 使 用 全 0 填 

7 步 长 为 1 因为 没有 使 用 全 0 填充 ， 所 以 这 一 层 的 输出 的 尺寸 为 32- 

5+1=28， 深 度 为 6。 这 一 个 卷 积 层 总 共有 5x5x1x6+6=156 个 参数 ， 其 中 6 
个 为 偏 置 项 参数 。 因 为 下 一 层 的 节点 矩阵 有 28x28x6=4704 个 节点 ， 每 个 
节点 和 5x5=25 个 当前 层 节 点 相连 ， 所 以 本 层 卷 积 层 总 共有 

4704x (25+1) =122304 个 连接 。 


第 二 层 ， 池 化 层 


一 层 的 输入 为 第 一 层 的 输出 ， 是 一 个 28x28x6 的 节点 和 矩阵。 本 层 采 用 
的 过 才 滤 堪 大 小 为 2x2， 长 和 宽 的 步 长 均 为 2， 所 以 本 层 的 输出 矩阵 大 小 为 
14x14x6。 原 始 的 LeNet- ee 的 过 滤器 和 6.3.2 小 节 介 绍 的 有 些 细 
微 差 别 ， 本 书 不 做 具体 介 


第 三 层 ， 卷 积 层 


本 层 的 输入 算 阵 大 小 为 14x14x6， 使 用 的 过 滤器 大 小 为 5x5， 深 度 为 16。 
本 层 不 使 用 全 0 填充 ， 步 长 为 1。 本 层 的 输出 矩阵 大 小 为 10x10x16。 按 照 
标准 的 卷 积 层 ， 本 层 应 该 有 5x5x6x16+16=2416 个 参数 ， 

10x10x16x (25+1) =41600 个 连接 。 


第 四 层 ， 池 化 层 


本 层 的 输入 矩阵 大 小 为 10x10x16， 采 用 的 过 滤器 大 小 为 2x2， 步 长 为 2。 
本 层 的 输出 矩阵 大 小 为 5x5x16。 


第 五 层 ， 全 连接 层 


本 层 的 输入 矩阵 大 小 为 5x5x16， 在 LeNet-5 模 型 的 论文 中 将 这 一 层 称 为 
卷 积 层 ， 但 是 因为 过 滤器 的 大 小 束 是 5x5， 所 以 和 全 连接 层 没 有 区 别 ， 
在 之 后 的 TensorFlow 程 序 实现 中 也 会 将 这 一 层 看 成 全 连接 层 。 如 果 将 
5x5x16 和 矩阵 中 的 节点 拉 成 一 个 辐 量 ， 那 么 这 一 层 和 在 第 4 章 中 介绍 的 全 
连接 层 输入 就 一 样 了 。 本 层 的 输出 节点 个 数 为 120， 总 共有 
5x5x16x120+120=48120 个 参数 。 


第 六 层 ， 全 连接 层 
本 层 的 输入 节点 个 数 为 120 个 ， 输 出 节点 个 数 为 84 个 ， 总 共 参 数 为 























120x84+84=10164 个 。 
第 书 层 ;从 连接 层 章 


本 层 的 输入 节点 个 数 为 84 个 ， 输 出 节点 个 数 为 10 个 ， 总 共 参 数 为 
84x10+10=850 个 。 


上 面 介 绍 了 LeNet-5 模 型 每 一 层 结构 和 设置 ， 下 面 给 出 一 个 TensorFlow 的 
程序 来 实现 一 个 类 似 LeNet-5 模 型 的 卷 积 神经 网 络 来 解决 MNIST 数 字 识 
别 问 题 。 通 过 TensorFlow 训 练 卷 积 神经 网 络 的 过 程 和 第 5 章 中 介绍 的 训 
练 全 连接 神经 网 络 是 完全 一 样 的 。 损 失 函 数 的 计算 、 反 辐 传 播 过 程 的 实 
现 都 可 以 复 用 5.5 节 中 给 出 的 mnist_train.py 程 序 。 唯 一 的 区 别 在 于 因为 卷 
积 神经 网 络 的 输入 层 为 一 个 三 维 窍 阵 ， 所 以 需要 调整 一 下 输入 数据 的 格 


式 ， 








# 调整 输入 数据 placeholder 的 格式 ， 输 入 为 一 个 四 维和 矩阵 。 


x = tf.placeholder(tf.float32, [ 


BATCH_SIZE, 站 
batch 中 样 例 的 个 数 。 

mnist_inference.IMAGE_ SIZE，  # 第 二 维和 第 三 维 表 示 
图 片 的 尺寸 。 


mnist_inference.IMAGE SIZE, 


mnist_inference.NUM CHANNELS]，# 第 四 维 表 示 图 片 的 
深度 ， 对 于 RBG 格 


# 式 的 图 
片 ， 深 度 为 3。 


name='x-input') 


# 类 似 地 将 输入 的 训练 数据 格式 调整 为 一 个 四 维和 矩阵 ， 并 将 这 个 调整 后 的 数据 传 入 


sess.run 过 程 。 


reshaped_ xs = np.reshape(xs, (BATCH_SIZE, 
mnist inference.IMAGE SIZ 
mnist inference.IMAGE SIZ 


mnist inference.NUM CHANN 


在 调整 完 输入 格式 之 后 ， 只 需要 在 程序 mnist_inference.py 中 实现 类 似 
LeNet-5 模 型 结构 的 前 向 传播 过 程 妈 可。 下面 给 出 了 修改 后 的 


mnist_infernece.py 程 序 。 





# -*- Coding: utf-8 -*- 


import tensorflow as tf 


# 配置 神经 网 络 的 参数 。 
INPUT_NODE = 784 


OUTPUT_NODE = 10 


IMAGE_SIZE = 28 
NUM_CHANNELS = 工 


NUM_LABELS = 10 








# 第 一 层 卷 积 层 的 尺寸 和 深度 。 
CONV1_DEEP = 32 
CONV1_SIZE = 5 
# 第 二 层 卷 积 层 的 尺寸 和 深度 。 


CONV2_DEEP = 64 








CONV2_SIZE = 5 
类 


RSIZS sd 





# 定义 卷 积 神经 网 络 的 前 向 传播 过 程 。 这 里 添加 了 一 个 新 的 参数 train， 用 于 区 分 
训练 过 程 和 测试 


# 过 程 。 在 这 个 程序 中 将 用 到 dropout 方 法 ，dropout 可 以 进一步 提升 模型 可 靠 性 
并 防止 过 拟 合 ， 


# dropout 过 程 只 在 训练 时 使 用 。 9- 
def inference(input_tensor, train, regularizer): 


# 声明 第 一 层 卷 积 层 的 变量 并 实现 前 向 传播 过 程 。 这 个 过 程 和 6 .3.1 小 节 中 介 














绍 的 一 致 














ee # 通过 使 用 不 同 的 命名 空间 来 隔离 不 同 层 的 变量 ， 这 可 以 让 每 一 层 中 的 变量 命 
从 而 


| 考虑 在 当前 层 的 作用 ， 而 不 需要 担心 重 名 的 问题 。 和 标准 LeNet -5 模型 不 





# 定义 的 卷 积 层 输入 为 28x28x1 的 原始 MNIST 图 片 像素 。 因 为 卷 积 层 中 使 用 
了 全 0 填充 ， 


# 所 以 输出 为 28x28x32 的 矩阵 。 
with tf.variable scope('layer1-convi1'): 
conv1 weights = tf.get variable( 
"weight", [CONV1 SIZE, CONV1 SIZE, NUM_ CHANNELS, 
initializer=tf.truncated normal initializer(stddev 
conv1 biases = tf.get variablel( 


"bias", [CONV1 DEEP], initializer=tf. constant_ini 


# 使 用 边 长 为 5， 深 度 为 32 的 过 小 器， 过 滤器 移动 的 步 长 为 1， 且 使 用 全 0 


conv1 = tf.nn,conv2d( 


input_tensor, Cconvi weights， strides= 
[1, 1, 1, 1], padding='SAME') 


relul = tf.nn.relu(tf.nn.bias add(convi, convi biases ) 





人 # 实现 第 二 层 池 化 层 的 前 向 传播 过 程 。 这 里 选用 最 大 池 化 层 ， 池 化 层 过 滤器 的 
人 < 为 2， 


# 使 用 全 0 填充 且 移 动 的 步 长 为 2。 这 一 层 的 输入 是 上 一 层 的 输出 ， 也 就 是 
28x28x32 


# 的 矩阵 。 输 出 为 14x14x32 的 矩阵 。 
with tf.name_scope('layer2-pool1'): 
pool1 = tf.nn.max_pool( 


relui, ksize=[1, 2, 2， 1], strides= 
[1, 2, 2, 1], padding='SAME') 

















a # 声明 第 三 层 卷 积 层 的 变量 并 实现 前 向 传播 过 程 。 这 一 层 的 输入 为 14x14x32 


# 输出 为 14x14x64 的 矩阵 。 
with tf.variable scope('layer3-conv2'): 
conv2_weights = tf.get_ variable( 
"weight", [CONV2 SIZE, CONV2 SIZE, CONV1 DEEP, CON 
initializer=tf.truncated normal initializer(stddev 
conv2_biases = tf.get variablel( 
"bias", [CONV2_DEEP], 


initializer=tf,. constant_ initializer(0.0)) 


区 # 使 用 边 长 为 5， 深 度 为 64 的 过 滤器 ， 过 滤器 移动 的 步 长 为 1， 且 使 用 全 0 


conv2 = tf.nn,conv2d( 


pool1i, conv2 weights, strides= 
[1, 1, 1, 1], padding='SAME') 


relu2 = tf.nn.relu(tf.nn.bias add(conv2, conv2_biases) 





# 实现 第 四 层 池 化 层 的 前 向 传播 过 程 。 这 一 层 和 第 二 层 的 结构 是 一 样 的 。 这 一 
层 的 输入 为 


# 14x14x64 的 矩阵 ， 输 出 为 7x7x64 的 算 阵 。 
with tf.name_scope('layer4-poo12'): 
pool2 = tf.nn.max_pool( 


relu2, ksize=[1, 2, 2， 1], strides= 
[1, 2, 2, 1], padding='SAME') 


# 将 第 四 层 池 化 层 的 输出 转化 为 第 五 层 全 连接 层 的 输入 格式 。 第 四 层 的 输出 为 
7x7x64 的 矩阵 ， 


# 然而 第 五 层 全 连接 层 需要 的 输入 格式 为 向 量 ， 所 以 在 这 里 需要 将 这 个 7x7x64 
的 矩阵 拉 直 成 一 


# 个 向 量 。po012.get_shape 函 数 可 以 得 到 第 四 层 输出 矩阵 的 维度 而 不 需要 
手工 计算 。 注意 


# 因为 每 一 层 神经 网 络 的 输入 输出 都 为 一 个 batch 的 矩阵 ， 所 以 这 里 得 到 的 维 
度 也 包含 了 一 个 


# batch 中 数据 的 个 数 。 








pool_shape = pool2.get_shape().as_list() 





家 # 计算 将 矩阵 拉 直 成 向 量 之 后 的 长 度 ， 这 个 长 度 就 是 矩阵 长 宽 及 深度 的 乘积 。 


## poo1_shape[9] 为 一 个 batch 中 数据 的 个 数 。 


nodes = pool shape[1] * pool_shape[2] * pool shapel[3] 


# 通过 tf.reshape 函 数 将 第 四 层 的 输出 变 成 一 个 batch 的 向 量 。 


reshaped = tf.reshape(pool2, [pool shape[0|], nodes]) 








ee # 声明 第 五 层 全 连接 层 的 变量 并 实现 前 向 传播 过 程 。 这 一 层 的 输入 是 拉 直 之 后 
9 一 组 所 量 ， 


# 向 量 长 度 为 3136， 输 出 是 一 组 长 度 为 512 的 向 量 。 这 一 层 和 之 前 在 第 5 章 中 





# 一 致 ， 唯 一 的 区 别 就 是 引入 了 dropout 的 概念 。dropout 在 训练 时 会 随机 将 
部 分 节点 的 


A 
驳 da 


# dropout 一 般 只 在 全 连接 层 而 不 是 卷 积 层 或 者 池 化 层 使 用 。 





with tf.variable scope('layer5-fc1"'): 
fci weights = tf.get variablel( 
"weight", [nodes, FC_SIZE], 
initializer=tf.truncated normal initializer(stdde 


# 只 有 全 连接 层 的 权重 需要 加 入 正则 化 。 








if regularizer != None: 
tf.add_ to collection('losses', regularizer(fci1 wei 
fci biases = tf.get_ variable( 


"bias", [FC_SIZE], initializer=tf.constant_ initial 


fci = tf.nn.relu(tf.matmul(reshaped, fc1 weights) + fc 


if train: fci = tf.nn.dropout(fc1，0.5) 








# 声明 第 六 层 全 连接 层 的 变量 并 实现 前 向 传播 过 程 。 这 一 层 的 输入 为 一 组 长 度 
为 512 的 向 量 ， 


# 输出 为 一 组 长 度 为 16 的 向 量 。 这 一 层 的 输出 通过 Softmax 之 后 就 得 到 了 最 后 
的 分 类 结果 。 


with tf.variable_ scope('layer6-fc2"'): 
fc2 weights = tf.get_ variablel( 
"weight", [FC_SIZE, NUM_LABELS], 
initializer=tf.truncated normal initializer(stddev 
if regularizer != None: 
tf.add to collection('losses', regularizer(fc2 wei 
fc2 biases = tf.get_ variable( 
"pias", [NUM_LABELS], 
initializer=tf. constant_ initializer(0.1)) 


logit = tf.matmul(fci, fc2 weights) + fc2_ biases 


# 返回 第 六 层 的 输出 。 


return logit 





运行 修改 后 的 mnist_train.py， 可 以 得 到 类 似 第 5 章 中 的 输出 : 


~/mnist$ python mnist_train.py 
Extracting /tmp/data/train-images-idx3-ubyte.gz 


Extracting /tmp/data/train-labels-idx1i-ubyte.gz 


Extracting /tmp/data/t1i0k-images-idx3-ubyte.gz 

Extracting /tmp/data/t1i0k-labels-idx1i-ubyte.gz 

After 1 training step(s), loss on training batch is 6.45373. 
After 1001 training step(s), loss on training batch is 0.8248 
After 2001 training step(s), loss on training batch is 0.6469 
After 3001 training step(s), loss on training batch is 0.7599 
After 4001 training step(s), loss on training batch is 0.6846 


After 5001 training step(s), loss on training batch is 0.6303 








类 似 地 修改 第 5 章 中 给 出 的 mnist_eval .py 程序 输入 部 分 ， 就 可 以 测试 这 个 卷 积 神经 网 
络 在 MNIST 数 据 集 上 的 正确 率 了 。 在 MNIST 测 试 数据 上 ， 上 面 给 出 的 卷 积 神经 网 络 可 以 达 
到 大 约 99. 4% 的 正确 率 。 相 比 第 5 章 中 最 高 的 98 . 4% 的 正确 率 ， 卷 积 神经 网 络 可 以 巨 幅 提 
高 神经 网 络 在 MNIST 数 据 集 上 的 正确 率 。 


然而 一 种 卷 积 神经 网 络 架 构 不 能 解决 所 有 问题 。 比 如 LeNet -5 模型 就 无 法 很 好 地 处 理 类 
似 ImageNet 这 样 比较 大 的 图 像 数 据 集 。 那么 如 何 设计 卷 积 神经 网 络 的 架构 呢 ? 下 面 的 正 
则 表达 式 公 式 总 结 了 一 些 经 典 的 用 于 图 片 分 类 问题 的 卷 积 神经 网 络 架 构 : 


输入 层 》( 郑 积 层 + > 池 化 层 ? ) + 全 连接 层 | 


在 上 面 的 公式 中 ,，“ 卷 积 层 +” 表 示 一 层 或 者 多 层 卷 积 层 ， 大 部 分 卷 积 神经 网 络 中 一 般 最 多 
连续 使 用 三 层 卷 积 层 。“ 池 化 层 ? “表示 没有 或 者 一 层 池 化 层 。 池 化 层 虽 然 可 以 起 到 减少 
参数 防止 过 拟 合 问 题 ， 但 是 在 部 分 论文 中 也 发 现 可 以 直接 通过 调整 卷 积 层 步 长 来 完成 名 
。 所 以 有 些 卷 积 {神经 网 络 中 没有 池 化 层 。 在 多 轮 卷 积 层 和 池 化 层 之 后 ， 卷 神经 网 络 在 输出 
之 前 一 般 会 经 过 过 1~2 个 全 连接 层 。 比 如 LeNet -5 模型 就 可 以 表示 为 下 面 的 结构 。 


人 -站 
袖 人 EDI 从 从 EE 化 县 才 和 二 作 革 -于 三 局 到 -于 全 局 夺 -相册 后 
除了 LeNet -5 模型 ， 2012 年 ImageNet ILSVRC 图 像 分 类 挑战 的 第 一 名 AlexNet 模 型 、 
2013 年 TLSVRC 第 一 名 ZF Net 模型 以 及 2014 年 第 二 名 VGGNet 模 型 的 架构 都 满足 上 面 介 
绍 的 正则 表达 式 。 表 6-1 给 出 了 VGGNet 论 文 Very Deep Convolutional Networks 


for Large-Scale Image Recognition 2- 中 作者 尝试 过 的 不 同 卷 积 神经 网 络 架 
构 。 从 表 6-1 中 可 以 看 出 这 些 卷 积 神经 网 络 架 构 都 满足 介绍 的 正则 表达 式 。 
























































































































































表 6-1 VGGNet 模 型 论文 中 尝试 过 的 卷 积 神经 网 络 架构 9- 





(其 中 conv* 表 示 卷 积 层 ，maxpoo1 表 示 池 化 层 ，FC-* 表 示 全 连接 层 ，soft -max 为 softmax 结 构 ) 


Input (224 x 224 RGB Image) 


conv3-64 conv3-64 Conv3-64 conv3-64 conv3-64 Conv3-64 
LRN conv3-64 conv3-64 conv3-64 conv3-64 


maxpoo 


conv3-128 | conv3-128 


Conv3-256 
conv3-256 


conv3-512 
conv3-512 


conv3-512 
conv3-512 


conv3-256 
conv3-256 


conv3-512 
conv3-512 


conv3-512 
conv3-512 


conv3-128 


conv3-128 


conv3-128 
conv3-128 


maxpool 


conv3-256 
conv3-256 


conv3-512 
conv3-512 


conv3-256 
Conv3-256 
conv1-256 


conv3-512 
conv3-512 
conv1-S12 


maxpoo 


conv3-512 
conv3-512 


conv3-512 
conv3-512 
cony1-S12 


conv3-128 
conv3-128 


conv3-256 
conv3-256 
conv3-256 


conv3-512 
conv3-512 
conv3-$512 


conv3-512 
conv3-512 
coOnV3-S12 


conv3-128 
conv3-128 


conv3-256 
conv3-256 
conv3-256 
conv3-256 


conv3-512 
conv3-512 
conv3-512 
conv3-512 


conv3-512 
conv3-512 
conv3-512 


conv3-512 
| 
C406 
Fe 
| 
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有 了 卷 积 神经 网 络 的 架构 ， 那 么 每 一 层 卷 积 层 或 者 池 化 层 中 的 配置 需要 如 何 设置 呢 ? 表 
6-1 也 提供 了 很 多 线索 。 在 表 6-1 中 ，convX-Y 表 示 过 滤器 的 边 长 为 X， 深 度 为 Y。 比 如 
conv3-64 表 示 过 滤器 的 长 和 宽 都 为 9， 深 度 为 64。 从 表 6-1 中 可 以 看 出 ，VGG Net 中 的 
过 滤器 边 长 一 般 为 3 或 者 1。 在 LeNet -5 模型 中 ， 也 使 用 了 边 长 为 5 的 过 滤器 。 一 般 卷 积 层 
的 过 滤器 边 长 不 会 超过 5， 但 有 些 卷 积 神经 网 络 结构 中 ， 处 理 输入 的 卷 积 层 中 使 用 了 边 长 
为 7 甚至 是 11 的 过 滤器 。 


在 过 滤器 的 深度 上 ， 大 部 分 卷 积 神经 网 络 都 采用 逐 层 递 增 的 方式 。 比 如 在 表 6-1 中 可 以 看 
到 ， 每 经 过 一 次 池 化 层 之 后 ， 卷 积 层 过 滤器 的 深度 会 乘 以 2。 虽 然 不 同 的 模型 会 选择 使 用 
不 同 的 具体 数字 ， 但 是 逐 层 递增 是 比较 普遍 的 模式 。 卷 积 层 的 步 长 一 般 为 1， 但 是 在 有 些 
模型 中 也 会 使 用 2， 或 者 3 作为 步 长 。 池 化 层 的 配置 相对 简单 ， 用 的 最 多 的 是 最 大 池 化 
层 。 池 化 层 的 过 滤器 边 长 一 般 为 2 或 者 3， 步 长 也 一 般 为 2 或 者 3。 


6.4.2 Inception-V3 模 型 


在 6.4.1 小 节 中 通过 介绍 LeNet -5 模型 整理 出 了 一 类 经 典 的 卷 积 神经 网 络 架构 设计 。 在 
这 一 小 节 中 将 介绍 Inception 结 构 以 及 Inception-Vv3 卷 积 神经 网 络 模型 。Inception 



































结构 是 一 种 和 LeNet -5 结构 完全 不 同 的 卷 积 神经 网 络 结构 。 在 LeNet -5 模型 中 ， 不 同 卷 
积 层 通过 串联 的 方式 连接 在 一 起 ， 而 Inception-v3 模 型 中 的 Inception 结 构 是 将 不 同 
的 卷 积 层 通过 并 联 的 方式 结合 在 一 起 。 在 下 面 的 篇 幅 中 将 具体 介绍 Inception 结 构 ， 并 
通过 TensorFlow-Slim 工 具 来 实现 Inception-v3 模 型 中 的 一 个 模块 。 


在 6.4.1 中 提 到 了 一 个 卷 积 层 可 以 使 用 边 长 为 1、3 或 者 5 的 过 滤器 ， 那 么 如 何在 这 些 边 长 
中 选 呢 ? Inception 模 块 给 出 了 一 个 方案 ， 那 就 是 同时 使 用 所 有 不 同 尺 寸 的 过 滤器 ， 然 
后 再 将 得 到 的 矩阵 拼接 起 来 。 图 6-16 给 出 了 Inception 模 块 的 一 个 单元 结构 示意 图 
































输入 和 矩阵 Inception 中 间 结 果 输出 矩阵 

















图 6-16 Inception 模 块 示意 图 。 


从 图 6-16 中 可 以 看 出 ，Inception 模 块 会 首先 使 用 不 同 尺 寸 的 过 滤器 处 理 输入 和 矩阵。 在 
图 6-16 中 ， 最 上 方 矩 阵 为 使 用 了 边 长 为 1 的 过 滤器 的 卷 积 层 前 向 传播 的 结果 。 类 似 的 ， 中 
间 和 矩阵 使 用 的 过 滤器 边 长 为 93， 下 方 和 矩阵 使 用 的 过 滤器 边 长 为 5。 不 同 的 矩阵 代表 了 
Inception 模 块 中 的 一 条 计算 路 径 。 虽 然 过 滤器 的 大 小 不 同 ， 但 如 果 所 有 的 过 滤器 都 使 
用 全 0 填充 且 步 长 为 1， 那 么 前 向 传播 得 到 的 结果 和 拢 阵 的 长 和 宽 都 与 输入 矩阵 一 致 。 
经 过 不 同 过 滤器 处 理 的 结果 和 拖 阵 可 以 拼接 成 一 个 更 深 的 矩阵 。 如 图 6-16 所 示 ， 可 以 将 它 

们 在 深度 这 个 维度 上 组 合 起 来 。 


图 6-16 所 示 的 Inception 模 块 得 到 的 结果 矩阵 的 长 和 宽 与 输入 一 样 ， 深 度 为 红 黄 蓝 三 个 
年 阵 深度 的 和 。 图 6- 16 中 展示 的 是 Inception 模 块 的 核心 忠 想 ， 真正 在 Inception-v3 
模型 中 使 用 的 Inception 模 块 要 更 加 复杂 且 多 样 ， 有 兴趣 的 读者 可 以 参考 论文 
Rethinking the Inception Architecture for Computer Vision 22-。 图 6. 
17 给 出 了 Inception-v3 模 型 的 架构 图 。 
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图 6-17 Inception-v3 模 型 架构 图 


Inception-v3 模 型 总 共有 46 层 ， 由 11 个 Inception 模 块 组 成 。 图 6-17 中 方 框 标 注 出 
来 的 寺 构 就 是 一 个 Inception 模 块 。 在 Inception-v3 模 型 中 有 96 个 卷 积 层 ， 如 果 将 
6.4.1 小 节 中 的 程序 直接 搬 过 来 ， 那 么 一 个 卷 积 层 就 需要 5 行 代码 ， 于 是 总 共 需 要 480 行 
代码 来 实现 所 有 的 卷 积 层 。 这 样 使 得 代码 的 可 读 性 非常 差 。 为 了 更 好 地 实现 类 似 
Inception-v3 模 型 这 样 的 复杂 卷 积 神经 网 络 ， 在 下 面 将 先 介 绍 TensorFlow-Slim 工 
具 来 更 加 简洁 地 实现 一 个 卷 积 层 。 以 下 代码 对 比 了 直接 使 用 TensorFlow 实 现 一 个 卷 积 层 
和 使 用 TensorFlow-Slim 实 现 同样 结构 的 神经 网 络 的 代码 量 。 















































# 直接 使 用 TensorFlow 原 始 API 实 现 卷 积 层 

with tf.variable scope(scope_nanme): 
weights = tf.get variable("weight", ...) 
biases = tf.,get variable("bias", ...) 
conv = tf.nn.conv2d(...) 


relu = tf.nn.relu(tf.nn.bias add(conv, biases)) 


# 使 用 TensorFlow-Slim 实 现 卷 积 层 。 通 过 TensorFlow-Slim 可 以 在 一 行 中 实 
现 一 个 卷 积 层 


# 的 前 向 传播 算法 。s1lim,conv2d 函 数 的 有 3 个 参数 是 必 填 的 。 第 一 个 参数 为 输入 
节点 矩阵 ， 第 


# 二 参数 是 当前 卷 积 层 过 滤器 的 深度 ， 第 三 个 参数 是 过 滤器 的 尺寸 。 可 选 的 参数 有 
过 滤器 移动 的 步 


# 长 、 是 否 使 用 全 96 填充、 激活 函数 的 选择 以 及 变量 的 命名 空间 等 。 


net = slim.conv2d(input, 32, [3, 3]) 














因为 完整 的 Inception-V3 模 型 比较 长 ， 所 以 在 本 书 中 仅 提 供 Inception-Vv3 模 型 中 结 
构 相 对 复杂 的 一 个 Inception 模 块 的 代码 实现 S99-。 以 下 代码 实现 了 图 6-17 中 红色 方 框 
中 的 Inception 模 块 。 








# Slim,.arg scope 函数 可 以 用 于 设置 默认 的 参数 取 值 。SLim,arg_Scope 函 数 
的 第 一 个 参数 是 


和 在 这 个 列表 中 的 函数 将 使 用 默认 的 参数 取 值 。 比 如 通过 下 面 的 定 
DS 诺 


# ”Slim.conv2d(net,， 320， [14,， 工 ] ) 函 数 时 会 自动 加 上 stride=1 和 
padding='SAME' 的 参 


# 数 。 如 果 在 函数 调用 时 指定 了 stride， 那 么 这 里 设置 的 默认 值 就 不 会 再 使 用 。 
通过 这 种 方式 


# 可 以 进一步 减少 元 余 的 代码 。 





with slim.arg_scope([slim.conv2d, slim.max_pool2d, slim.avg_p 


stride=1 ，padding='SAME ' ) : 


# 此 处 省 略 了 Inception-VvV3 模 型 中 其 他 的 网 络 结构 而 直接 实现 最 后 面 红 色 
方 框 中 的 。 


# INception 结 构 。 假 设 输入 图 片 经 过 之 前 的 神经 网 络 前 向 传播 的 结果 保存 
在 变量 net 


# 中 。 
net = 上 一 层 的 输出 节点 矩阵 
# 为 一 个 Inception 模 块 声明 一 个 统一 的 变量 命名 空间 。 
with tf.variable scope('Mixed 7c'): 
# 给 Inception 模 块 中 每 一 条 路 径 声 明 一 个 命名 空间 。 
with tf.variable scope('Branch_0'): 


# 实现 一 个 过 滤器 边 长 为 1， 深 度 为 320 的 卷 积 层 。 


branch_ 0 = slim.conv2d(net, 320, [1, 1], scope='C 


# Inception 模 块 中 第 二 条 路 径 。 这 条 计算 路 径 上 的 结构 本 身 也 是 一 个 
Inception 结 


# 构 。 
with tf.variable _ scope('Branch_1°'): 
branch 1 = slim.conv2d(net, 384, [1, 1], scope='C 


a # tf.concat 消 数 可 以 将 多 个 矩阵 拼接 起 来 。tf .concat 函 数 的 
第 一 个 参数 指定 








# 了 拼接 的 维度 ， 这 里 给 出 的 “3” 代 表 了 和 矩阵 是 在 深度 这 个 维度 上 
进行 拼接 。 图 6-16 


# 中 展示 了 在 深度 上 拼接 矩阵 的 方式 。 
branch 1 = tf.concat(3，[ 


# 如 图 6-17 所 示 ， 此 处 2 层 卷 积 层 的 输入 都 是 branch_1 而 不 


是 net。 
slim.conv2d(branch 1，384，[1，3]，scope= 'Con 
slim.conv2d(branch_ 1, 384, [3, 1], scope="'Con 
# Inception 模 块 中 第 三 条 路 径 。 此 计算 路 径 也 是 一 个 Inception 结 
构 。 


with tf.variable_ scope('Branch 2 ' ) : 
branch 2 = Slim,conv2d ( 
net, 448, [1, 1], scope='Conv2d 0a _ 1x1'") 
branch 2 = slim,.conv2d( 
branch_2, 384, [3, 3], scope='Conv2d_ 0b_3x3 
branch 2 = tf.concat(3, |[ 


slim.conv2d(branch_ 2, 384, 


[1，3]，scope= ' Conv2d_ 0c_1x3 ) 
Slim.conv2d(branch_ 2，384， 


[3, 1], scope='Conv2d_0d_3x1'") 


# Inception 模 块 中 第 四 条 路 径 。 
with tf.variable_ scope('Branch 3°'): 
branch 3 = slim.avg_pool2d( 
net, [3, 3], scope='AvgPool 0a 3x3') 
branch 3 = slim,.conv2d( 


branch_3, 192, [1, 1], scope="'Conv2d 0b_1x1' 


# 当前 Inception 模 块 的 最 后 输出 是 由 上 面 四 个 计算 结果 拼接 得 到 的 。 


net = tf,concat(3，[branch 0，branch_ 1，branch_2，bra 


6.5 卷 积 神经 网 络 迁 移 学 习 


在 本 节 中 将 介绍 迁移 学 习 的 概念 以 及 如 何 通过 TensorF1Low 来 实现 迁移 学 习 。 在 6.5.1 人 小 
节 中 将 讲解 迁移 学 习 的 动机 ， 并 介绍 如 何 将 一 个 数据 集 上 训练 好 的 卷 积 神经 网 络 模型 快速 
转移 到 另外 一 个 数据 集 上 。 在 6.5.2 小 节 中 将 给 出 一 个 具体 的 TensorF1Low 程 序 将 
ImageNet 上 训练 好 的 Inception-V3 模 型 转移 到 另外 一 个 图 像 分 类 数据 集 上 。 


6.5.1 迁移 学 习 介 绍 


在 6.4 节 中 介绍 了 1998 年 提出 的 LeNet -5 模型 和 2015 年 提出 的 Inception-V3 模 型 。 对 
比 这 两 个 模型 可 以 发 现 ， 卷 积 神经 网 络 模型 的 层 数 和 复杂 度 都 发 生 了 巨大 的 变化 。 表 6-2 
给 出 了 从 2012 年 到 2015 年 ILSVRC (Large Scale Visual Recognition 
Challenge) 第 一 名 模型 的 层 数 以 及 前 五 个 答案 的 错误 率 。 


表 6-2 ILSVRC 第 一 名 模型 信息 列表 





























年 份 模型 名 称 层 数 _ 6y Top5 错 误 率 


2012 AlexNet 8 15.3% 
2013 ZF Net 8 14.8% 
2014 GoogLeNet 22 6.67% 
2015 ResNet 152 3.57% 








从 表 6-2 可 以 看 到 ， 随 着 模型 层 数 及 复杂 度 的 增加 ， 模 型 在 ImageNet 上 的 错误 率 也 随 之 
降低 。 然 而 ， 训 练 复 杂 的 卷 积 神经 网 络 需 要 非常 多 的 标注 数据 。 如 6.1 节 中 提 到 的 ， 
ImageNet 图 像 分 类 数据 集中 有 120 万 标注 图 片 ， 所 以 才能 将 152 层 的 ResNet 的 模型 训练 
到 大 约 96 .5% 的 正确 率 。 在 真实 的 应 用 中 ， 很 难 收集 到 如 此 多 的 标注 数据 。 即 使 可 以 收集 
到 ， 也 需要 花费 大 量 人 力 物 力 。 而 且 即 使 有 海量 的 训练 数据 ， 要 训练 一 个 复杂 的 卷 积 神经 
网 络 也 需要 几 天 甚至 几 周 的 时 间 。 为 了 解决 标注 数据 和 训练 时 间 的 问题 ， 可 以 使 用 本 节 将 
要 介绍 的 迁移 学 习 。 


所 谓 迁 移 学 习 ， 就 是 将 一 个 问题 上 训练 好 的 模型 通过 简单 的 调整 使 其 适用 于 一 个 新 的 问 
题 。 本 小 节 将 介绍 如 何 利用 ImageNet 数 据 集 上 训练 好 的 Inception-v3 模 型 来 解决 一 个 
新 的 图 像 分 类 问题 。 根 据 论文 DeCAF: A Deep Convolutional Activation 
Feature for Generic Visual Recognition 2- 中 的 结论 ， 可 以 保留 训练 好 的 
Inception-V3 模 型 中 所 有 卷 积 层 的 参数 ， 只 是 蔡 换 最 后 一 层 全 连接 层 。 在 最 后 这 一 层 
全 连接 层 之 前 的 网 络 层 称 之 为 瓶颈 层 (bottleneck) 。 


将 新 的 图 像 通过 训练 好 的 卷 积 神经 网 络 直 到 瓶颈 层 的 过 程 可 以 看 成 是 对 图 像 进行 特征 提取 
的 过 程 。 在 训练 好 的 Inception-Vv3 模 型 中 ， 因 为 将 瓶 希 层 的 输出 再 通过 一 个 单 层 的 全 

连接 层 神经 网 络 可 以 很 好 地 区 分 10009 种 类 别 的 图 像 ， 所 以 有 理由 认为 瓶 须 层 输出 的 节点 

向 量 可 以 被 作为 任何 图 像 的 一 个 更 加 精简 且 表 达能 力 更 强 的 特征 向 量 。 于 是 ， 在 新 数据 集 
上 ， 可 以 直接 利用 这 个 训练 好 的 神经 网 络 对 图 像 进行 特征 提取 ， 然 后 再 将 提取 得 到 的 特征 
向 量 作为 输入 来 训练 一 个 新 的 单 层 全 连接 神经 网 络 处 理 新 的 分 类 问题 。 


一 般 来 说 ， 在 数据 量 足 够 的 情况 下 ， 迁 移 学 习 的 效果 不 如 完全 重新 训练 。 但 是 迁移 学 习 所 
需要 的 训练 时 间 和 训练 样本 数 要 远 远 小 于 训练 完整 的 模型 。 在 没有 GPU 名- 的 普通 台式 机 
或 者 笔记 本 电脑 上 ，6.5.,2 小 节 中 给 出 的 TensorF1Low 训 练 过 程 只 需要 大 约 5 分钟 2-， 
而 且 可 以 达到 大 概 90% 的 正确 率 。 


6.5.2 TensorFlow 实 现 迁 移 学 习 


本 小 节 将 给 出 一 个 完整 的 TensorFlow 程 序 来 介绍 如 何 通 过 TensorFlow 实 现 迁 移 学 习 。 
以 下 代码 给 出 了 如 何 下 载 这 一 小 节 中 将 要 用 到 的 数据 集 。 

































































































































































curl http://download.tensorflow.org/example images/flower_pho 


tar xzf flower_photos.tgz 








解压 之 后 的 文件 来 包含 了 5 个 子 文件 夹 ， 个 子 文件 夹 的 名 称 为 一 种 花 的 名 称 ， 代 表 了 











不 同 的 类 别 。 平 均 每 一 种 花 有 734 张 图 片 ， 每 一 张 图 片 都 是 RGB 色 彩 模式 的 ， 大 小 也 不 相 
同 。 和 之 前 的 样 例 不 同 ， 在 这 一 小 节 中 给 出 的 程序 将 直接 处 理 没 有 整理 过 的 图 像 数据 。 同 
时 ， 通 过 下 面 的 命名 可 以 下 载 谷 歌 提 供 的 训练 好 的 Inception-v3 模 型 。 

































































wget https://storage.googleapis.com/download.tensorflow.org/m 
inception_dec 2015 .zip 
unzip tensorflow/examples/label image/data/inception dec 2015 


当 新 的 数据 集 和 已 经 训练 好 的 模型 都 准备 好 之 后 ， 可 以 通过 以 下 代码 来 完成 迁移 学 习 的 过 


程 。 
# -*- Coding: utf-8 -*- 


import glob 

import os.path 

import random 

import numpy as np 
import tensorflow as tf 


from tensorflow.python.platform import gfile 


# INception-v3 模 型 瓶颈 层 的 节点 个 数 。 


BOTTLENECK_TENSOR_SIZE = 2048 


# Inception-V3 模 型 中 代表 瓶颈 层 结果 的 张 量 名 称 。 在 谷歌 提供 的 Inception- 
V3 模 型 中 ， 这 


# “个 张 量 名称 就 是 "poo1_ 3/_reshape:0'"。 在 训练 的 模型 时 ， 可 以 通过 
tensor .name 来 获取 张 


# 量 的 名 称 。 


BOTTLENECK_TENSOR_NAME = 'pool 3/_reshape:0' 


# 图 像 输 入 张 量 所 对 应 的 名 称 。 


JPEG_DATA_TENSOR_NAME = :DecodeJpeg/Xcontents :0， 


# 下 载 的 谷歌 训练 好 的 Inception-v3 模 型 文件 目录 。 


MODEL_DIR = '/path/to/model' 


# 下 载 的 谷歌 训练 好 的 Inception-v3 模 型 文件 名 。 


MODEL_FILE = 'classify_image_graph_def.pb' 





, 坟 四 为 一个 训 统 数据 会 被 使 用 多 次 ， 所 以 可 以 将 原始 图 像 通过 Tnception -v3 模型 
计算 得 到 


和 





CACHE_DIR = '/tmp/bottleneck' 


a 
3 


# 存放 了 对 应 类 别 的 图 片 。 


INPUT_DATA = '/path/to/flower_data' 


# 验证 的 数据 百分比 。 
VALIDATION_PERCENTAGE = 10 


# 测试 的 数据 百分比 。 


TEST_PERCENTAGE = 10 


# 定义 神经 网 络 的 设置 。 
LEARNING_RATE = 90.01 
STEPS = 4000 


BATCH = 100 


# 这 个 函数 从 数据 文件 夹 中 读 取 所 有 的 图 片 列 表 并 按 训 练 、 验 证 、 测 试 数据 分 开 。 


# testing percentage 和 validation_ percentage 参 数 指定 了 测试 数据 集 和 
验证 数据 集 的 


ZR 
def create image_ lists(testing_percentage, validation percent 


# 得 到 的 所 有 图 片 都 存在 result 这 个 字典 (dictionary) 里 。 这 个 字典 的 
key 为 类 别 的 名 


# 称 ，value 是 也 是 一 个 字典 ， 字 上 典 里 存储 了 所 有 的 图 片 名 称 。 
result = {} 

# 获取 当前 目录 下 所 有 的 子 目录 。 

sub_dirs = [x[0] for x in os.walk(INPUT_DATA)] 


# 得 到 的 第 一 个 目录 是 当前 目录 ， 不 需要 考虑 。 











is_root_dir = True 

for Sub dir in sub_dirs: 

if 1IS_root_ dir: 
is_root_dir = False 


continue 








# 获取 当前 目录 下 所 有 的 有 效 图 片 文件 。 

extensions = ['jpg', 'jpeg', 'JPG', :JPEG |] 

file list = [|] 

dir_name = os.path.basename(sub_dir) 

for extension in extensions: 
file glob = os.path.join(INPUT_DATA, dir name, '*.' + 
file list.extend(glob.glob(file glob)) 


if not file list: continue 


# 通过 目录 名 获取 类 别 的 名 称 。 
label name = dir_name,. Lower() 
# 初始 化 当前 类 别 的 训练 数据 集 、 测 试 数据 集 和 验证 数据 集 。 
training_images = [|] 
testing_images = [|] 
validation_images = [|] 
for file name in file list: 
base_name = os.path.basename(file name) 
# 随机 将 数据 分 到 训练 数据 集 、 测 试 数据 集 和 验证 数据 集 。 
chance = np.random.randint(100) 
if chance < validation percentage: 
validation_images.append(base_name) 
elif chance < (testing percentage + validation percent 
testing_images.append(base_name) 


else: 


training_images.append(base_name) 


# 将 当前 类 别 的 数据 放 入 结果 字典 。 
result[label name|] = { 
'dir': dir_name, 
'training': training_images, 
'testing': testing images, 
'validation': Validation images， 
# 返回 整理 好 的 所 有 数据 。 


return result 


# 这 个 函数 通过 类 别名 称 、 所 属 数据 集 和 图 片 编号 获取 一 张 图 片 的 地 址 。 
# image_1ists 参 数 给 出 了 所 有 图 片 信息 。 


# image_dir 参 数 给 出 了 根 目录 。 存 放 图 片 数 据 的 根 目 录 和 存放 图 片 特征 向 量 的 根 
目录 地 址 不 同 。 


# label_name 参 数 给 定 了 类 别 的 名 称 。 
# index 参 数 给 定 了 需要 获取 的 图 片 的 编号 。 


a # Category 参 数 指定 了 需要 获取 的 图 片 是 在 训练 数据 集 、 测 试 数据 集 还 是 验证 数 





def get_ image path(image lists, image dir, label name, index, 
# 获取 给 定 类 别 中 所 有 图 片 的 信息 。 
label lists = image_ lists[label namel] 
# 根据 所 属 数据 集 的 名 称 获取 集合 中 的 全 部 图 片 信息 。 


category_list = label lists[categoryl] 


mod_index = index % len(category_list) 

# 获取 图 片 的 文件 名 。 

base_name = category_list[mod_index] 

sub_dir = label lists['dir'] 

# 最 终 的 地 址 为 数据 根 目录 的 地 址 加 上 类 别 的 文件 夹 加 上 图 片 的 名 称 。 
full path = os.path.join(image_ dir, sub_dir, base_name) 


return full path 


# 这 个 函数 通过 类 别名 称 、 所 属 数据 集 和 图 片 编号 获取 经 过 Inception-v3 模 型 处 
理 之 后 的 特征 向 量 


# 文件 地 址 。 
def get_ bottleneck path(image_ lists, label name, index, categ 
return get_ image path(image_ lists, CACHE_DIR, 


label name, index, category) + '.tx 


# 这 个 函数 使 用 加 载 的 训练 好 的 Inception-v3 模 型 处 理 一 张 图 片 ， 得 到 这 个 图 片 
的 特征 向 量 。 


def run_bottJleneck_on_image(sess，image_data，image_data_tens 
bottleneck tensor): 


# 这 个 过 程 实际 上 就 是 将 当前 图 片 作为 输入 计算 瓶颈 张 量 的 值 。 这 个 瓶颈 张 量 
的 值 就 是 这 


# 张 图 片 的 新 的 特征 向 量 。 





bottleneck_ values = sess.run(bottleneck_ tensor, 
{image_data tensor: image _d 


同 # 经 过 卷 积 神经 网 络 处 理 的 结果 是 一 个 四 维 数组 ， 需 要 将 这 个 结果 压缩 成 一 个 
于 征 


# 向 量 〈 一 维 数组 ) 。 
bottJleneck_values = np.squeeze(bottleneck_values) 


return bottleneck values 


# 这 个 函数 获取 一 张 图 片 经 过 Inception-v3 模 型 处 理 之 后 的 特征 向 量 。 这 个 函数 
会 先 试图 寻找 


ee a 己 经 计算 且 保存 下 来 的 特征 向 量 ， 如 果 找 不 到 则 先 计算 这 个 特征 向 量 ， 然 后 保存 
I 文件。 


def get_or_create bottleneck( 
sess, image_lists, label name, index, 
category, jpeg_ data tensor, bottleneck_ tensor): 
# 获取 一 张 图 片 对 应 的 特征 向 量 文件 的 路 径 。 
label lists = image_ lists[label namel] 
sub_dir = label lists['dir'] 
sub_dir_path = os.path.join(CACHE_DIR, sub_dir) 
if not os.path.exists(sub dir_ path): os.makedirs(sub_dir_p 
bottleneck path = get_ bottleneck_ path( 


image_lists, label name, index, category) 


# ”如果 这 个 特征 向 量 文件 不 存在 ， 则 通过 Inception-v3 模 型 来 计算 特征 向 
量 ， 并 将 计算 的 结 


# 存 入 文件 。 
if not os.path.exists(bottleneck_ path): 
# 获取 原始 的 图 片 路 径 。 


image_path = get_image_path( 


image_lists, INPUT_DATA, label name, index, category) 
# 获取 图 片 内容 。 
image_data = gfile.FastGFile(image path, 'rb').read() 
# 通过 Inception-v3 模 型 计算 特征 向 量 。 
bottleneck_ values = run_ bottleneck_on_image( 
sess, image_ data, jpeg_data tensor, bottleneck tensor 


# 将 计算 得 到 的 特征 向 量 存 入 文件 。 





bottJleneck_string = ','.join(str(x) for x in bottleneck_va 

with open(bottleneck path, 'w') as bottleneck file: 
bottleneck file.write(bottleneck_ string) 

else: 

# 直接 从 文件 中 获取 图 片 相应 的 特征 向 量 。 

with open(bottleneck path, 'r') as bottleneck file: 
bottleneck_string = bottleneck_ file.read() 


bottleneck values = [float(x) for x in 
bottleneck_string.split(',')] 


# 返回 得 到 的 特征 向 量 。 


return bottleneck values 


# 这 个 函数 随机 获取 一 个 batch 的 图 片 作为 训练 数据 。 
def get_random cached_ bottlenecks( 
sess, Nn_classes, image lists, how many, category, 
Jpeg_data tensor, bottleneck_ tensor): 
bottlenecks = [|] 


ground_truths = [|] 


正确 率 。 


for _ in range(how many): 
# 随机 一 个 类 别 和 图 片 的 编号 加 入 当前 的 训练 数据 。 
label index = random.randrange(n_classes) 
label name = list(image_ lists.keys())[label index] 
image_index = random.randrange(65536) 
bottleneck = get or_create bottleneck( 
sess, image_lists, label name, image_index, category, 

jpeg_data tensor, bottleneck_ tensor) 
ground_truth = np.zeros(n_classes, dtype=np.float32) 
ground_truth[label index] = 1.0 
bottlenecks.append(bottleneck) 


ground_truths.append(ground_truth) 


return bottlenecks, ground_truths 





# 这 个 函数 获取 全 部 的 测试 数据 。 在 最 终 测试 的 时 候 需 要 在 所 有 的 测试 数据 上 计算 


def get_ test_ bottlenecks(sess, image_ lists, n_classes, 


Jpeg_data tensor, bottleneck tensor 


bottlenecks = [|] 
ground_truths = [] 
label name_ list = list(image_ lists.keys()) 


# 枚 举 所 有 的 类 别 和 每 个 类 别 中 的 测试 图 片 。 


for label index, label name in enumerate(label name_ list): 


category = 'testing' 
for index, unused base name in enumerate( 
image_lists[label namel][category]): 


# 通过 Inception-v3 模 型 计算 图 片 对 应 的 特征 向 量 ， 并 将 其 加 入 最 终 数 





据 的 列表 。 
bottleneck = get or_create bottleneck( 
sess, image_lists, label name, index, category, 
Jpeg_data tensor, bottleneck_ tensor) 
ground_truth = np.zeros(n_classes, dtype=np.float32) 
ground_truth[label index] = 1.0 
bottlenecks.append(bottleneck) 
ground_truths.append(ground_truth) 


return bottlenecks, ground_truths 


def main(_): 
# 读 取 所 有 图 片 。 
image_lists = create image_ lists(TEST_ PERCENTAGE, VALIDATI 


n_classes = len(image_lists.keys()) 


# ” 读 取 已 经 训练 好 的 Inception-v3 模 型 。 浴 歌 训 练 好 的 模型 保存 在 了 
GraphDef Protocol 


# Buffer 中 ， 里 面 保存 了 每 一 个 节点 取 值 的 计算 方法 以 及 变量 的 取 值 。 
TensorFlow 模 型 持 


# 久 化 的 问题 在 第 5 章 中 有 详细 的 介绍 。 
with gfile.FastGFile(os.path.join(MODEL_ DIR, MODEL_FILE), 


graph_def = tf.GraphDef() 


graph_def,.ParseFromString(f.read() ) 


只 寺 加载 读 取 的 Tception-V3 醒 型 ， 并 返 占 数据 答 入 所 对 应 的 张 量 以 及 计算 站 
类 人/ 云 红 XM 


# 的 张 量 。 
bottleneck_tensor, jpeg_data tensor = tf.import_graph_def( 
graph_def, 


return elements= 
[BOTTLENECK_TENSOR_ NAME, JPEG DATA TENSOR_ NAME]) 


# 定义 新 的 神经 网 络 输入 ， 这 个 输入 就 是 新 的 图 片 经 过 Inception-v3 模 型 前 
向 传播 到 达 瓶 宽 层 


# 是 的 节点 取 值 。 可 以 将 这 个 过 程 类 似 的 理解 为 一 种 特征 提取 。 
bottleneck_input = tf.placeholder( 
tf.float32, [None, BOTTLENECK_ TENSOR_SIZE], 
name='BottleneckIinputPlaceholder') 
# 定义 新 的 标准 答案 输入 。 
ground_truth_input = tf.placeholder( 
tf.float32, [None, n_classes], name='GroundTruthIinput') 


# 定义 一 层 全 链接 层 来 解决 新 的 图 片 分 类 问题 。 因 为 训练 好 的 Inception-v3 
模型 已 经 将 原始 


# 的 图 片 抽 象 为 了 更 加 容易 分 类 的 特征 向 量 了 ， 所 以 不 需要 再 训练 那么 复杂 的 
神经 网 络 来 完成 


# 这 个 新 的 分 类 任务 。 


with tf.name_scope('final _ training_ ops  ) : 





weights = tf.Variable(tf.truncated_normal( 


[BOTTLENECK_TENSOR_SIZE, n_classes|], stddev=0.001)) 


biases = tf.Variable(tf.zeros([n_ classes])) 
logits = tf.matmul(bottleneck input, weights) + biases 


final tensor = tf.nn.softmax(logits) 








# 定义 交 义 灶 损 失 函 数 。 

cross_entropy = tf.nn.softmax_cross_entropy with_ logits( 
logits,ground truth_input) 

cross_entropy_mean = tf.reduce mean(cross_ entropy) 
train_step = tf.train.GradientDescentOptimizer (LEARNING RA 


.minimize(cross_ entropy_mean) 


# 计算 正确 率 。 

with tf.name_scope('evaluation'): 

correct_prediction = tf.equal(tf.argmax(final tensor, 1), 
tf.argmax(ground_ truth_ input, 1)) 

evaluation_step = tf.reduce mean( 


tf.cast(correct prediction, tf.float32)) 


with tf.Session() as sess: 
init = tf.initialize all variables() 


sess.run(init) 


# 训练 过 程 。 


for i in range(STEPS ) : 


# 每 次 获取 一 个 batch 的 训练 数据 。 
train_ bottlenecks, train ground _ truth = \ 
get_random_ cached_ bottlenecks( 
sess, Nn_classes, image_lists, BATCH, 
'training', jpeg_data tensor, bottleneck_ ten 
sess.run(train_step, 


feed_ dict= 
{bottleneck_ input: train _ bottlenecks, 


ground_truth_input: train_gr 


# 在 验证 数据 上 测试 正确 率 。 
if i % 100 == © or i + 1 == STEPS: 
validation bottlenecks, validation ground_ truth = 
get_random cached_ bottlenecks( 
sess, Nn_classes, image lists, BATCH, 
'validation', jpeg_data tensor, bottlen 
validation accuracy = sess.run( 
evaluation_ step, feed dict={ 
bottleneck_ input: validation bottlenecks, 
ground_truth_ input: validation ground_ 
print('Step %d: Validation accuracy on random samp 
'%d examples = %.1f%%' % 


(i, BATCH, validation accuracy * 100)) 


# 在 最 后 的 测试 数据 上 测试 正确 率 。 


test_bottJlenecks，test_ground_truth = get test_ bottlen 
sess, image_lists, n_classes, jpeg_ data tensor, 
bottleneck_ tensor) 

test_accuracy = sess.run(evaluation step, feed_ dict={ 
bottleneck_input: test_ bottlenecks, 
ground_truth_input: test_ground_ truth}) 


print('Final test accuracy = %.1f%%' % (test accuracy 


Name 0 MA < 


tf.app.run() 


























eh 将 需要 大 约 49 分 钟 “ 数 据 处 理 35 分 钟 ， 训 练 5 分 钟 ) ， 可 以 得 到 类 似 下 面 














Step 0: Validation accuracy on random sampled 100 examples = 
Step 200: Validation accuracy on random sampled 100 examples 
Step 400: Validation accuracy on random sampled 100 examples 
Step 600: Validation accuracy on random sampled 100 examples 
Step 800: Validation accuracy on random sampled 100 examples 


Step 1000: Validation accuracy on random sampled 100 examples 


Step 3999: Validation accuracy on random sampled 100 examples 


Final test accuracy = 93.6% 


从 上 面 的 结果 可 以 看 到 ， 模 型 在 新 的 数据 集 上 很 快 能 够 收 化 ， 并 达到 还 不 错 的 分 类 效果 。 
WA 


在 本 章 中 详细 介绍 了 如 何 通过 卷 积 神经 网 络 解决 图 像 识别 问题 。 首 先 ， 在 6.1 节 中 讲解 了 
什么 是 图 像 识别 问题 ， 并 介绍 了 图 像 识 别 问题 中 的 一 些 经 典 公开 数据 集 。 在 这 一 节 中 介绍 
了 不 同 算法 在 这 些 公开 数据 集 上 的 表现 ， 并 指出 卷 积 神经 网 络 给 这 个 领域 带 来 了 质 的 飞 

越 。 接 着 ， 在 6.2 节 中 介绍 了 卷 积 神经 网 络 的 基本 思想 。 在 这 一 节 中 指出 了 全 连接 神经 网 
络 在 处 理 图 像 数 据 上 的 不 足 之 处 ， 并 给 出 了 经 典 的 卷 积 神经 网 络 中 包含 的 不 同 网 络 结构 。 


在 6.3 节 中 详细 讲述 了 卷 积 神经 网 络 中 比较 重要 的 两 个 网 络 结构 一 卷 积 层 和 池 化 层 。 本 节 
详细 介绍 了 这 两 种 网 络 结构 的 前 向 传播 算法 ， 并 给 出 了 TensorFlow 中 的 代码 实现 。 在 
6.4 节 中 ， 通 过 两 种 经 典 的 卷 积 神经 网 络 模型 介绍 了 如 何 设计 一 个 卷 积 神经 网 络 的 架构 ， 
并 介绍 了 配置 卷 积 层 和 池 化 层 中 设置 的 一 些 经 验 。 在 这 一 节 中 给 出 了 一 个 完成 的 
TensorF1ow 程 序 来 实现 LeNet -5 模型 ， 通 过 这 个 模型 可 以 将 MNIST 数 据 集 上 的 正确 率 
进一步 提升 到 大 约 99 .4%。 这 一 节 中 还 简单 介绍 了 TensorFlow-Slim 工 具 ， 通 过 这 个 工 
具 可 以 巨 幅 提 高 实现 复杂 神经 网 络 的 编程 效率 。 最 后 在 6.5 节 中 ， 介 绍 了 迁移 学 习 的 概念 
并 给 出 了 一 个 完整 的 TensorFlow 来 实现 迁移 学 习 。 通 过 迁移 学 习 ， 可 以 使 用 少量 训练 数 
据 在 短 时间 内 训练 出 效果 还 不 错 的 神经 网 络 模型 。 


在 这 一 章 中 ， 通 过 图 像 识 别 问题 介绍 了 卷 积 神经 网 络 。 通 过 这 种 特殊 结构 的 神经 网 络 ， 可 
以 将 图 像 识别 问题 的 准确 率 提高 到 一 个 新 的 层次 。 除 了 改进 模型 ，TensorFlow 还 提供 了 
很 多 图 像 处 理 的 函数 以 方便 图 像 处 理 。 在 第 7 章 中 将 具体 介绍 这 些 函 数 。 同 时 也 将 介绍 如 
何 使 用 TensorFlow 更 好 地 处 理 输入 数据 。 


































































































(1) 详情 请 参考 论文 :Learning Semantic Representations Using Convolutional Neural 
Networks for Web Search、A Deep Architecture for Semantic Parsing、 A Convolutional 
Neural Network for Modelling SentencesRConvolutional Neural Networks for Sentence 
Classification 。 





(2)。 参见 : Wallach I, Dzamba M, Heifets A. AtomNet: A Deep Convolutional Neural Network 
for Bioactivity Prediction jin Structure-based Drug Discovery [J]. Mathematische 
Zeitschrift, 2015. 


(3) 参见 : Liu Y, Racah E, Prabhat, et al. Application of Deep Convolutional Neural 
Networks for Detecting Extreme Weather in Climate Datasets [J]. 2016. 


(4) 参见 : Clark C, Storkey A. Teaching Deep Convolutional Neural Networks to Play Go 
[J]. Eprint Arxiv, 2015. 


(5)。” 数字 来 源 于 http://yann.lecun.com/exdb/mnist。 
(6) 人 工 标 注 错 误 率 参见 : Simard P, Lecun Y, Denker J S. Efficient Pattern Recognition 


Using a New Transformation Distance [M]// Advances in Neural Information Processing 
Systems (NIPS 1992). 1993. 












































02) 更 多 关于 图 像 词典 项 目的 介绍 可 以 参考 其 官方 网 站 
http://groups.csail.mit.edu/vision/TinyImages. 


































































































(8) _ ”MNIST 数 据 集中 每 一 张 图 片 只 包含 一 个 数字 ; Cifar-10 和 Cifar-100 数 据 集中 每 一 张 图 片 只 包含 一 个 种 类 的 
物体 。 

(9) ”人 工 标 注 的 准确 率 来 自 技术 博客 http://torch.ch/blog/2015/07/30/cifar.html。 

(10) ”具体 数字 出 自 : Springenberg J T, Dosovitskiy A, Brox T, et al. Striving for 





























Simplicity: The All Convolutional Net [J]. Eprint Arxiv, 2014. 














(11) WordNet 是 一 个 大 型 英语 语义 网 ， 里 面 将 名 词 、 动 词 、 形 容 词 和 副词 整理 成 了 同义词 集 ， 并 标注 了 不 同 同义词 
畏 之 间 的 关系 。wWordNet 有 具体 信息 可 以 参考 WordNet 官 网 : https://wordnet.princeton.edu/。 
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(12) ”ImageNet 中 图 片 的 具体 整理 和 标注 方式 可 以 参考 : Deng J，Dong W，Socher R，et al. ImageNet: 
A Jlarge-scale hierarchical image database [Cl]// Computer Vision and Pattern 
Recognition, 2009., CVPR 2009. IEEE Conference on. IEEE, 2009. 
































(13) ” 此 图 片 来 自 于 ImageNet 官 方 网 站 。 





(14) ”第 8 章 将 介绍 循环 神经 网 络 。 





(15) ”在 第 4 章 的 图 4-5 中 介绍 了 神经 元 的 结构 。 











































































































16) 在 RGB 色 彩 模式 下 ， 一 幅 完 整 的 图 像 是 由 红色 、 绿 色 和 蓝 色 3 个 通道 组 成 的 。 因 为 每 个 通道 在 每 个 像素 点 上 都 
有 亮度 值 ， 所 以 整个 图 片 就 可 以 表示 成 一 个 三 维 矩 阵 。 
[人 此 图 片 来 自 斯 坦 福 大 学 在 线 卷 积 神经 网 络 教程 http://cs231n.github.io/convolutional- 





























networks/。 






































(18) ”此 处 全 0 填充 的 方式 和 TensorFlow 中 实现 的 方式 略 有 不 同 ， 但 是 原理 是 一 样 的 。 
























































(19) ” 池 化 层 主 要 用 于 减 小 矩阵 的 长 和 宽 。 虽 然 池 化 层 也 可 以 减 小 矩阵 深度 ， 但 是 实践 中 一 般 不 会 这 样 使 用 。 











ba 


















































(20) 有 研究 指出 池 化 层 对 模型 效果 的 影响 不 大 ， 具 体 细节 可 以 参考 : Springenberg J T, Dosovitskiy A， 
Brox T, et al. Striving for Simplicity: The All Convolutional Net [J]. Eprint Arxiyv, 
2014 .不 过 目前 主流 的 卷 积 神经 网 络 模型 中 都 含有 池 化 层 。 



























































(21) Lecun Y, Bottou L, Bengio Y, et al. Gradient-based learning applied to document 
recognition [J]. Proceedings of the IEEE, 1998. 





























(22) 此 图 片 来 自 论文 Gradient-based learning applied to document recognition 。 





(23) 论文 GradientBased Learning Applied to Document Recognition 提出 的 LeNet-5 模 型 中 ， 卷 4 
层 和 池 化 层 的 实现 与 6.3 节 中 介绍 的 TensorFLow 的 实现 有 细微 的 区 别 ， 本 书 不 过 多 的 讨论 具体 细节 ， 而 是 着 重 介绍 模 
型 的 整体 框架 。 










































































层 的 结构 和 全 连接 层 有 区 别 ， 但 我 们 这 用 全 连接 层 近似 的 表示 。 





(24) LeNet-5 模 型 论文 中 最 后 一 层 输 则 
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(25) ”关于 dropout 的 详情 可 以 参考 论文 Hinton G E, Srivastava N, Krizhevsky A, et al. Improvin 
neural networks by preventing co-adaptation of feature detectors [J]. Computer 
Science, 2012. 




















(26)” 具体 可 以 参考 论文 Striving for Simplicity: The All Convolutional Net 。 





(27)_ Simonyan K, Zisserman A. Very Deep Convolutional Networks for Large-scale Image 


Recognition [J]. Computer Science, 2014. 
(28) ”此 表 源 自 论文 Very Deep Convolutional Networks for Large-Scale Image Recognition 。 


(29) Szegedy C, Vanhoucke V, Ioffe S, et al，Rethinking the Inception Architecture 
for Computer Vision[J]. Computer Science, 2015. 


(30) 在 TensorFlow 的 GitHub 代 码 库 上 找到 完整 的 Inception-v3 模 型 的 源码 。GitHub 的 地 址 为 
https://github.com/tensorflow/tensorflow/blob/master/tensorflow/contrib/slim/python/sli 



































(31) 在 这 里 层 数 只 计算 了 卷 积 层 和 全 连接 层 的 个 数 ， 没 有 参数 的 池 化 层 没有 包括 在 内 。 









































(32) Donahue J, Jia Y, Vinyals 0, et al. DeCAF: A Deep Convolutional Activation 
Feature for Generic Visual Recognition [J]. Computer Science, 2013. 

















(33)。 第 10 章 将 介绍 TensorFlow 如 何 使 用 GPU 加 速 训练 过 程 。 








(34) _ 数据 下 载 和 数据 预 处 理 的 时 间 没 有 计算 在 内 


第 7 革 图像 数据 处 理 


在 第 6 章 中 详细 介绍 了 卷 积 神经 网 络 ， 并 提 到 通过 卷 积 神经 网 络 给 图 像 识别 技术 带 来 了 突 
破 性 进展 。 这 一 章 将 从 另外 一 个 维度 来 进一步 提升 图 像 识别 的 精度 以 及 训练 的 速度 。 喜 欢 
摄影 的 读者 都 知道 图 像 的 亮度 、 对 比 度 等 属性 对 图 像 的 影响 是 非常 大 的 ， 相 同 物体 在 不 同 
亮度 、 对 比 度 下 差别 非常 大 。 然 而 在 很 多 图 像 识 别 问 题 中 ， 这 些 因素 都 不 应 该 影响 最 后 的 
识别 结果 。 所 以 本 章 将 介绍 如 何 对 图 像 数 据 进行 预 处 理 使 训练 得 到 的 神经 网 络 模型 尽 可 能 
小 地 被 无 关 因素 所 影响 。 但 与 此 同时 ， 复 杂 的 预 处 理 过 程 可 能 导致 训练 效率 的 下 降 。 为 了 
减 小 预 处 理 对 于 训练 速度 的 影响 ， 在 本 章 中 也 将 详细 地 介绍 TensorFlow 中 多 线程 处 理 输 
入 数据 的 解决 方案 。 


本 章 将 根据 数据 预 处 理 的 先后 顺序 来 组 织 不 同 的 小 节 。 首 先 在 7.1 节 中 将 介绍 如 何 统一 输 
入 数据 的 格式 ， 使 得 在 之 后 系统 中 可 以 更 加 方便 地 人 处理。 来自 实际 问题 的 数据 往往 有 很 多 
格式 和 属性 ， 这 一 节 将 介绍 的 TFRecord 格 式 可 以 统一 不 同 的 原始 数据 格式 ， 并 更 加 有 效 
地 管理 不 同 的 属性 。 接 着 在 7.2 节 中 将 介绍 如 何 对 图 像 数据 进行 预 处 理 。 这 一 节 将 列举 
TensorF1ow 支 持 的 图 像 处 理 函 数 ， 并 介绍 如 何 使 用 这 些 处 理 方式 来 弱化 与 图 像 识别 无 关 
的 因素 。 复 杂 的 图 像 处 理 函 数 有 可 能 降低 训练 的 速度 ， 为 了 加 速 数据 预 处 理 过 程 ，7 ,3 节 
将 完整 地 介绍 TensorFlow 多 线程 数据 预 处 理 流程 。 在 这 一 节 中 将 首先 介绍 TensorFLow 
中 多 线程 和 队列 的 概念 ， 这 是 TensorFlow 多 线程 数据 预 处 理 的 基本 组 成 部 分 。 然 后 将 具 
体 介 绍 数 据 预 处 理 流程 中 的 每 个 部 分 。 在 本 节 的 最 后 将 给 出 一 个 完整 的 多 线程 数据 预 处 理 
流程 图 和 程序 框架 。 


7.1 TFRecord 输 入 数据 格式 


TensorFlow 提 供 了 一 种 统一 的 格式 来 存储 数据 ， 这 个 格式 就 是 TFRecord。6.5 节 给 出 
了 一 个 程序 来 处 理 花 林 分 类 的 数据 。 在 这 个 程序 中 ， 使 用 了 一 个 从 类 别名 称 到 所 有 数据 列 
表 的 词典 来 维护 图 像 和 类 别 的 关系 。 这 种 方式 的 可 扩展 性 非常 差 ， 当 数据 来 源 更 加 复杂 、 
每 一 个 样 例 中 的 信息 更 加 丰富 之 后 ， 这 种 方式 就 很 难 有 效 地 记录 输入 数据 中 的 信息 了 。 于 
是 TensorFlow 提 供 了 TFRecord 的 格式 来 统一 存储 数据 。 这 一 节 将 介绍 如 何 使 用 



















































































































































































































































































TFRecord 来 统一 输入 数据 的 格式 。 
7.1.1 TFRecord 格 式 介 绍 


TFRecord 文 件 中 的 数据 都 是 通过 tf.train.,Example Protocol Buffer 的 格式 存储 
的 。 以 下 代码 给 出 了 tf.,train.Example 的 定义 。 





message Example { 


Features features = 1; 


J 


message Features { 


map<string, Feature> feature = 工 ; 


上 


message Feature { 
oneof kind { 
BytesList bytes_ list = 1; 


FloatList float list = 2; 


INt64List int64 list 
} 
jr2 


Il 
CD 





从 以 上 代码 可 以 看 出 tf.train. Examp1e 的 数据 结构 是 比 ; 较 简 洁 的 。 
tf.train.Example 中 包含 了 一 个 从 属性 名 称 到 取 值 的 字典 。 其 中 属性 名 称 为 一 个 字符 
串 ， 属 性 的 取 值 可 以 为 字符 串 (BytesList) ， 实 数列 表 (FloatList) 或 者 整数 列表 
CInt64List) 。 比 如 将 一 张 解 码 前 的 图 像 存 为 一 个 字符 串 ， 图 像 所 对 应 的 类 别 编 号 存 
为 整数 列表 。 在 1.2 小 节 中 将 给 出 一 个 使 用 TFRecord 的 具体 样 例 。 






































7.1.2 TFRecord 样 例 程 序 


本 小 节 将 给 出 具体 的 样 例 程序 来 读 写 TFRecord 文 件 。 下 面 的 程序 给 出 了 如 何 将 MNIST 输 
入 数据 转化 为 TFRecord 的 格式 。 








import tensorflow as tf 


from tensorflow.examples.tutorials.mnist import input_data 


import numpy as np 


# 生成 整数 型 的 属性 。 





i 


def _int64 feature(value): 


return tf.train.Feature(int64 list=tf.train.Int64List(value= 
[value|])) 


# 生成 字符 串 型 的 属性 。 
def _bytes_ feature(value): 


return tf.train.Feature(bytes_ list=tf.train.BytesList(value= 
[value|])) 


mnist = input_data.read data sets( 
"/path/to/mnist/data", dtype=tf.uint8, one_hot=True) 
images = mnist.train.images 


# 训练 数据 所 对 应 的 正确 答案 ， 可 以 作为 一 个 属性 保存 在 TFRecord 中 。 





labels = mnist.train.labels 


# 训练 数据 的 图 像 分 状 率 ， 这 可 以 作为 Example 中 的 一 个 属性 。 





pixels = images.shapel1l] 


num_examples = mnist.train.num examples 


# 输出 TFRecord 文 件 的 地 址 。 

filename = "/path/to/output.tfrecords" 

# 创建 一 个 writer 来 写 TFRecord 文 件 。 

writer = tf.python_ io.TFRecordwriter(filename) 
for index in range(num examples): 

# 将 图 像 矩阵 转化 成 一 个 字符 串 。 

image_raw = images[index].tostring() 


# 将 一 个 样 例 转化 为 Example Protocol Buffer， 并 将 所 有 的 信息 写 入 这 个 数 
结构 。 


example = tf.train.Example(features=tf.train.Features(feature 





'pixels': _int64 feature(pixels), 
'label': _int64 feature(np.argmax(labels[index])), 


'image_raw': _bytes feature(image_raw)})) 


# 将 一 个 Example 写 入 TFRecord 文 件 。 
writer.write(example.SerializeToString()) 
writer.close() 
以 上 程序 可 以 将 MNIST 数 据 集中 所 有 的 训练 数据 存储 到 一 个 TFRecord 文 件 中 。 当 数据 量 
较 大 时 ， 也 可 以 将 数据 写 入 多 个 TFRecord 文 件 。TensorFlow 对 从 文件 列表 中 读 取 数据 


提供 了 很 好 的 支持 ， 在 7.3.2 小 节 中 将 详细 介绍 。 以 下 程序 给 出 了 如 何 读 取 TFRecord 文 
件 中 的 数据 。 























Import tensorflow as tf 


# 创建 一 个 reader 来 读 取 TFRecord 文 件 中 的 样 例 。 

reader = tf.TFRecordReader() 

# 创建 一 个 队列 来 维护 输入 文件 列表 ， 在 7.3.2 小 节 中 将 更 加 详细 的 介绍 
# tf.train.string_ input_producer 函 数 。 

filename_queue = tf.train.string_ input_producer( 


["/path/to/output.tfrecords"]) 


# 从 文件 中 读 出 一 个 样 例 。 也 可 以 使 用 read_up_to 函 数 一 次 性 读 取 多 个 样 例 。 
_, Serialized example = reader.read(filename_queue) 
# 解析 读 入 的 一 个 样 例 。 如 果 需 要 解析 多 个 样 例 ， 可 以 用 parse_examp1e 函 数 。 
features = tf.parse_ single example( 

serialized example, 

features={ 


#_ TensorFlow 提 供 两 种 不 同 的 属性 解析 方法 。 一 种 是 方法 是 
tf.FixedLenFeature, 


# ”这 种 方法 解析 的 结果 为 一 个 Tensor。 男 一 种 方法 是 
tf.VarLenFeature， 这 种 方法 


# 得 到 的 解析 结果 为 SparseTensor， 用 于 处 理 稀 玻 数据 。 这 里 解析 数据 
的 格式 需要 和 


# 上 面 程序 写 入 数据 的 格式 一 致 。 

'image_raw': tf.FixedLenFeature([], tf.string), 
'pixels': tf.FixedLenFeature([], tf.int64), 
'label': tf.FixedLenFeature([], tf.int64), 


3 


# tf.decode_raw 可 以 将 字符 哩 解析 成 图 像 对 应 的 像素 数组 。 
images = tf.decode raw(features['image raw'], tf.uint8) 
labels = tf.cast(features['label'], tf.int32) 


pixels = tf.cast(features['pixels'], tf.int32) 


sess = tf.Session() 
# 启动 多 线程 处 理 输入 数据 ，7 ,3 节 将 更 加 详细 地 介绍 TensorFlow 多 线程 处 理 。 
coord = tf.train.Coordinator() 


threads = tf.train.start_ queue_runners(sess=sess, coord=coord 


# 每 次 运行 可 以 读 取 TFRecord 文 件 中 的 一 个 样 例 。 当 所 有 样 例 都 读 完 之 后 ， 在 此 


样 例 中 程序 


# 会 在 重头 读 取 。 
for i in range(10): 


image, label, pixel = sess.run([images, labels, pixels]) 


7.2 图 像 数 据 人 处理 


在 之 前 的 几 章 中 多 次 使 用 到 了 图 像 识别 数据 集 。 IE 












































始 的 像素 矩阵 。 这 一 节 将 介绍 图 像 的 预 处 理 过 程 。 通 过 对 图 像 的 预 处 理 ， 可 以 尽量 避免 模 
型 受到 无 关 因素 的 影响 。 在 大 部 分 图 像 识别 问题 中 ， ， 通 过 图 像 预 处 理 ; 寺 程 可 以 提高 模型 的 


准 而 











上 率 。 在 7.2 .1 小 节 中 将 先 介绍 TensorF1Low 提 供 的 主要 图 像 处 理 函 数 ， 并 给 出 具体 图 




















































































































像 在 处 理 前 和 处 理 后 的 变化 计 读 者 有 一 个 直观 的 了 解 。 然后 在 7.2.2 小 节 中 将 给 出 一 个 完 
整 的 图 像 预 处 理 流程 。 


7.2.1 TensorF1Low 图 像 处 理 函 数 
TensorFlow 提 供 了 几 类 图 像 处 理 函 数 ， 在 本 小 节 中 将 一 一 介绍 这 些 图 像 处 理 函 数 。 





图 像 编码 处 理 


























































































































在 之 前 的 章节 中 提 到 一 张 RGB 色彩 模式 的 图 像 可 以 看 成 一 个 三 维和 矩阵 ， 移 阵 中 的 每 一 个 数 
表示 了 图 像 上 不 同位 置 ， 不 同 颜色 的 亮度 。 然 而 图 像 在 存储 时 并 不 是 直接 记录 这 些 和 矩阵 中 
的 数字 ， 而 是 记录 经 过 压缩 编码 之 后 的 结果 。 所 以 要 将 一 张 图 像 还 原 成 一 个 三 维 矩 阵 ， 需 
要 解码 的 过 程 。TensorFlow 提 供 了 对 jpeg 和 png 格 式 图 像 的 编码 /解码 函数 。 以 下 代码 
示范 了 如 何 使 用 TensorFlow 中 对 jpeg 格 式 图 像 的 编码 /解码 函数 。 









































# matplotlib.pyplot 是 一 个 python 的 画图 工具 饵 -。 在 这 一 节 中 将 使 用 这 个 工 
县 来 可 视 


# 化 经 过 TensorFlow 处 理 的 图 像 。 
import matplotlib.pyplot as plt 


import tensorflow as tf 


# 读 取 图 像 的 原始 数据 。 


image_raw data = tf.gfile.FastGFile("/path/to/picture", 'r'). 


with tf.Session() as sess: 


# 将 图 像 使 用 jpeg 的 格式 解码 从 而 得 到 图 像 对 应 的 三 维和 矩阵 。TensorFlow 还 


提供 了 


后 # tf.image.decode_png 函 数 对 png 格 式 的 图 像 进 行 解 码 。 解 码 之 后 的 结 


# 张 量 ， 在 使 用 它 的 取 值 之 前 需要 明确 调用 运行 的 过 程 。 


img_ data = tf.image.decode jpeg(image_raw data) 


print img_data,eval() 
# 输出 解码 之 后 的 三 维 和 矩阵， 上 面 这 一 行将 输出 下 面 的 内 容 。 


[[[165 160 138] 


"a 


[105 140 50]] 


[[166 161 139] 


DE 


[166 139 48]] 


[[207 200 181] 


"a 


[166 81 50]]] 


# 使 用 pyplot 工 具 可 视 化 得 到 的 图 像 。 可 以 得 到 图 7-1 中 展示 了 的 图 像 。 
plt.imshow(img_data.eval()) 


plt.show() 


# 将 数据 的 类 型 转化 成 实数 方便 下 面 的 样 例 程序 对 图 像 进 行 处 理 。 


img_data = tf.image.convert_ image dtype(img data, dtype=tf 


# 将 表示 一 张 图 像 的 三 维 矩 阵 重新 按照 jpeg 格 式 编码 并 存 入 文件 中 。 打 开 这 张 





像 ， 
# 可 以 得 到 和 原始 图 像 一 样 的 图 像 。 


encoded_ image = tf.image.encode jpeg(img_data) 


with tf.gfile.GFile("/path/to/output", "wb") as f: 


f.write(encoded image.eval()) 





图 7-1 显 示 了 上 面 代码 可 视 化 出 来 的 一 张 图 像 ， 在 下 面 的 篇 幅 中 将 继续 使 用 这 张 图像 来 介 
绍 TensorFLow 其 他 图 像 处 理 的 函数 。 























图 7-1 本 节 样 例 代 码 中 使 用 到 的 原始 图 像 只 








图 像 大 小 调整 


一 般 来 说 ， 网 络 上 获取 的 图 像 大 小 是 不 固定 ， 但 神经 网 络 输入 节点 的 个 数 是 固定 的 。 所 以 
在 将 图 像 的 像素 作为 输入 提供 给 神经 网 络 之 前 ， 需 要 先 将 图 像 的 大 小 统一 。 这 就 是 图 像 大 
小 调整 需要 完成 的 任务 。 图 像 大 小 调整 有 两 种 方式 ， 第 一 种 是 通过 算法 使 得 新 的 图 像 尽量 
保存 原始 图 像 上 的 所 有 信息 。TensorFlow 提 供 了 四 种 不 同 的 方法 ， 并 且 将 它们 封装 到 了 
tf.image.resize_images 函 数 。 以 下 代码 示范 了 如 何 使 用 这 个 函数 。 





# 加 载 原始 图 像 ， 定 义 会 话 等 过 程 和 图 像 编码 处 理 中 代码 一 致 ， 在 下 面 的 样 例 
中 就 全 部 略 去 了 ， 


# 假设 img_data 是 已 经 解码 且 进行 过 类 型 转化 的 图 像 。 


和 
YV/ 个 各 » 


a # 第 二 个 和 第 三 个 参数 为 调整 后 图 像 的 大 小 ，method 参 数 给 出 了 调整 图 像 大 小 


resized = tf.image.resize images(img_data, [300, 300], met 


# 输出 调整 后 图 像 的 大 小 ， 此 处 的 结果 为 (300， 300，2?) 。 表 示 图 像 的 大 小 
是 300x300， 


# 但 图 像 的 深度 在 没有 明确 设置 之 前 会 是 问号 。 

print img_ data.get_shape() 

# 通过 pyplLot 可 视 化 的 过 程 和 图 像 编码 处 理 中 给 出 的 代码 一 致 ， 在 以 下 代码 中 
也 将 略 去 。 
表 7-1 给 出 了 tf.image.resize_images 函 数 的 method 参 数 取 值 对 应 的 图 像 大 小 调整 
算法 。 图 7-2 对 比 了 不 同 大 小 调整 算法 得 到 的 结果 。 

表 7-1 tf.image.resize images 函 数 中 method 参 数 取 值 与 相对 应 的 图 像 大 小 调整 算法 





Method 取 值 图 像 大 小 调整 算法 

0 双 线 性 插值 法 (Bilinear 
Interpolation) _ &) 

1 最 近邻 居 法 (Nearest neighbor 
interpolation) _ ww, 

2 双 三 次 插值 法 (Bicubic interpolation) 
(5) 

3 面积 插值 法 (Area interpolation) 





100 150 200 250 


原始 图 像 (a) 双 线 性 插值 法 〈b) 最 近邻 居 《〈c) 








50 100 150 
双 三 次 插值 法 (d) 面积 插值 法 (e) 

















图 7-2 使 用 tf.image.resize_images 函 数 中 不 同 图 像 大 小 调整 算法 的 效果 对 比 图 


从 图 7-2 中 可 以 看 出 ， 不 同 算法 调整 出 来 的 结果 会 有 细微 差别 ， 但 不 会 相差 太 远 。 除 了 将 
整 张 图 像 信息 完整 保存 ，TensorFlow 还 提供 了 API 对 图 像 进行 裁剪 或 者 填充 。 以 下 代码 
展示 了 通过 tf .image.resize_image_with_crop_or_pad 函 数 来 调整 图 像 大 小 的 功 


台 已 
Heo 





# 通过 tf.image.resize image _ With _ crop_or pad 函数 调整 图 像 的 大 小 。 
这 个 函数 的 


# 第 一 个 参数 为 原始 图 像 ， 后 面 两 个 参数 是 调整 后 的 目标 图 像 大 小 。 如 果 原 始 图 像 
的 层 各 天 二 同和 慰 


# 图 像 ， 那 么 这 个 函数 会 自动 截取 原始 图 像 中 居中 的 部 分 〈 如 图 7-3(b) 所 示 ) 。 
如 果 目 标 图 像 


a 这 个 函数 会 自动 在 原始 图 像 的 四 周 填充 全 9 背景 (如 图 7-3(c) 所 
# 始 图 像 的 大 小 为 1797x2673， 所 以 下 面 的 第 一 个 命令 会 自动 剪裁 ， 而 第 二 个 命令 

会 自动 填充 。 

croped = tf.image.resize image with crop_or_ pad(img data, 100 


padded = tf.,image.resize image with crop_or_pad(img_ data, 300 





600 1000 500 1000 1500 2000 2500 3000 


200 
原始 图 像 (a) 动 裁 前 到 1000x1000 (b) 自动 填充 到 3000x3000 (c) 


















































图 7-3 使 用 tf.image.resize_image_with_crop_or_pad 函 数 调整 图 像 大 小 结果 对 比 图 


TensorFlow 还 支持 通过 比例 调整 图 像 大 小 ， 以 下 代码 给 出 了 一 个 样 例 。 











# 通过 tf.image，central_crop 函 数 可 以 按 比例 裁剪 图 像 。 这 个 函数 的 第 一 个 
参数 为 原始 图 


# 像 ， 第 二 个 为 调整 比例 ， 这 个 比例 需要 是 一 个 (8, 1] 的 实数 。 图 7-4(b) 中 显示 
了 调整 之 


# 后 的 图 像 。 


central cropped = tf.image.central crop(img_ data，0.5) 


上 面 介 绍 的 图 像 裁剪 函数 都 是 截取 或 者 填充 图 像 中 间 的 部 分 。TensorFLow 也 提供 了 
tf.image.crop_to_bounding box 函数 和 tf.image.pad to_bounding_pbox 函 
数 来 剪裁 或 者 填充 给 定 区 域 的 图 像 。 这 两 个 函数 都 要 求 给 出 的 尺寸 满足 一 定 的 要 求 ， 否 则 
程序 会 报错 。 比 如 在 使 用 tf. image,crop_to_bounding_box 函 数 时 ，TensorF1Low 
要 求 提供 的 图 像 尺 寸 要 大 于 目标 尺寸 ， 也 就 是 要 求 原始 图 像 能 够 裁剪 出 目标 图 像 的 大 小 。 
有 兴趣 的 读者 可 以 自行 参考 TensorFlow 的 API 文 











400 600 800 
原始 图 像 (a) 截取 中 间 50% 的 图 像 (b) 
图 7-4 使 用 tf.image. central_crop 函 数 调整 图 像 大 小 结果 对 比 图 
图 像 翻 转 


TensorF1Low 提 供 了 一 些 函数 来 支持 对 图 像 的 翻转 。 以 下 代码 实现 了 将 图 像 上 下 翻转 、 左 
右 翻转 以 及 沿 对 角 线 翻转 的 功能 。 





原始 图 像 (a) 上 下 翻转 (b) 


1000 





1500 





让 S00 l1000 1500 
左右 翻转 (Cc) 沿 对 角 线 翻 转 d) 





图 7-5 图 像 翻转 效果 图 


在 很 多 图 像 识别 问题 中 ， 图 像 的 翻转 不 会 影响 识别 的 结果 。 于 是 在 训练 图 像 识 别 的 神经 网 
络 模型 时 ， 可 以 随机 地 翻转 训练 图 像 ， 这 样 训练 得 到 的 模型 可 以 识别 不 同 角度 的 实体 。 比 
如 假设 在 训练 数据 中 所 有 的 猎头 都 是 向 右 的 ， 那 么 训练 出 来 的 模型 就 无 法 很 好 的 识别 猫 头 
向 左 的 猫 。 虽 然 这 个 问题 可 以 通过 收集 更 多 的 训练 数据 来 解决 ， 但 是 通过 随机 翻转 训练 图 
像 的 方式 可 以 在 零 成 本 的 情况 下 很 大 程度 地 缓解 该 问题 。 所 以 随机 翻转 训练 图 像 是 一 种 很 
常用 的 图 像 预 处 理 方式 。TensorFlow 提 供 了 方便 的 API 完 成 随机 图 像 翻 转 的 过 程 。 











# 以 一 定 概率 上 下 翻转 图 像 。 
flipped = tf,image.random flip up down(img datal) 
# 以 一 定 概率 左右 翻转 图 像 。 


flipped = tf,image.random_ flip_ left_right(img_data) 


图 像 色 彩 调整 


和 图 像 翻转 类 似 ， 调 整 图 像 的 亮度 、 对 比 度 、 饱 和 度 和 色相 在 很 多 图 像 识 别 应 用 中 都 不 会 
影响 识别 结果 。 所 以 在 训练 神经 网 络 模型 时 ， 可 以 随机 调整 训练 图 像 的 这 些 属 性 ， 从 而 使 


得 训练 得 到 的 模型 尽 可 能 小 地 受到 无 关 因素 的 影响 。TensorFlow 提 供 了 调整 这 些 色彩 相 
关 属 性 的 API。 以 下 代码 显示 了 和 如何 修改 图 像 的 亮度 。 





# 将 图 像 的 亮度 -0.5， 得 到 的 图 像 效 果 如 图 7-6(b) 所 示 。 

adjusted = tf.image.adjust_brightness(img data, -0.5) 
# 将 图 像 的 亮度 +0.5， 得 到 的 图 像 效 果 如 图 7-6(c) 所 示 。 

adjusted = tf.image.adjust_ brightness(img data, 0.5) 
# 在 [-max_delta，max_delta) 的 范围 随机 调整 图 像 的 亮度 。 


adjusted = tf.image.random brightness(image, max_delta) 





E 














原始 图 像 (a) 亮度 -0.5 (b) 亮度 +0.5 (c) 











图 7-6 ”图像 亮 度 调整 效果 图 号 


以 下 代码 显示 了 如 何 调整 图 像 的 对 比 度 。 




















# 将 图 像 的 对 比 度 -5， 得 到 的 图 像 效 果 如 图 7-7(b ) 所 示 。 
adjusted = tf.image.adjust contrast(img data, -5) 
# 将 图 像 的 对 比 度 +5， 得 到 的 图 像 效 果 如 图 7-7(c) 所 示 。 
adjusted = tf.image.adjust contrast(img data, 5) 
# 在 [lower,，upper] 的 范围 随机 调整 图 的 对 比 度 。 


adjusted = tf.image.random contrast(image, lower, upper) 








000 1500 


对 比 度 -5 (b) 





图 7-7 图像 对 比 度 调整 效果 图 
以 下 代码 显示 了 如 何 调整 图 像 的 色相 。 








# 下 面 四 条 命令 分 别 将 色相 加 60.1、0.3、0.6 和 0.9, 得 到 的 效果 分 别 在 
# 图 7-8(b),(c)，(d),(e) 中 展示 。 


adjusted = tf.image.adjust_ hue(img data, 0.1) 


adjusted tf.image.adjust_hue(img _ data, 0.3) 


adjusted tf.image.adjust_hue(img _ data, 0.6) 
adjusted = tf.image.adjust_ hue(img data, 0.9) 

# 在 [-max_delta，max_delta] 的 范围 随机 调整 图 像 的 色相 。 
# max_delta 的 取 值 在 [06，0.5] 之 间 。 


adjusted = tf.image.random hue(image, max_delta) 





1500 


色相 +0.3 (c) 


2000 2500 








2 _ 
1000 1500 1000 1500 


色相 +0.6(d) 色相 +0.9(e) 


图 7-8 ”图像 色 相 调整 效果 图 
以 下 代码 显示 了 如 何 调整 图 像 的 饱和 度 。 


# 将 图 像 的 饱和 度 -5， 得 到 的 图 像 效 果 如 图 7-9(b) 所 示 。 
adjusted = tf.image.adjust_ saturation(img data, -5) 
# 将 图 像 的 饱和 度 +5， 得 到 的 图 像 效 果 如 图 7-9(c) 所 示 。 
adjusted = tf.image.adjust saturation(img data, 5) 
# 在 [LIower，Upper] 的 范围 随机 调整 图 的 饱和 度 。 


adjusted = tf.image.random saturation(image, lower, upper) 








1500 500 


原始 图 像 (a) 饱和 度 -5 (by) 饱和 度 +5 (c) 


图 7-9 图像 饱和 度 调整 效果 图 


除了 调整 图 像 的 亮度 、 对 比 度 、 饱 和 度 和 人 色相，TensorFlow 还 提供 API 来 完成 图 像 标准 
化 的 过 程 。 这 个 操作 就 是 将 图 像 上 的 亮度 均值 变 为 09， 方差 变 为 1。 以 下 代码 实现 了 这 个 


并 作 安 一 于 图 性 的 三 第 短 卫 中国 数学 油 信 安 238， 方差 变 为 1。 调 整 后 的 图 像 如 图 
7-10(b)。 


adjusted = tf.image.per_image whitening(img_data) 


1000 1500 1000 1500 


原始 图 像 (a) 调整 后 图 像 (b) 


























图 7-10 图像 标 准 化 效果 图 














处 理 标 注 框 


在 很 多 图 像 识 别 的 数据 集中 ， 图 像 中 需要 关注 的 物体 通常 会 被 标注 框 圈 出 来 。 
TensorFlow 提 供 了 一 些 工具 来 处 理 标 注 框 。 下 面 这 段 代码 展示 了 如 何 通 过 
tf.,image.draw_bounding_boxes 函 数 在 图 像 中 加 入 标注 框 。 





# 将 图 像 缩 小 一 些 ， 这 样 可 视 化 能 让 标注 框 更 加 清楚 。 
img_data = tf.image.resize images(img_ data, 180, 267, meth 


# tf.image.draw bounding_boxes 函 数 要 求 图 像 窍 阵 中 的 数字 为 实数 ， 
所 以 需要 先 将 


# 图 像 矩 阵 转化 为 实数 类 型 。tf. image.draw bounding_ poxes 函 数 图 像 
的 输入 是 一 个 


# bacth 的 数据 ， 也 就 是 多 张 图 像 组 成 的 四 维 矩 阵 ， 所 以 需要 将 解码 之 后 的 图 
像 矩 阵 加 一 维 。 


[ymin, 


batched = tf.expand_dims( 
tf.image.convert_ image dtype(img data，tf.float32)，0) 
# ”给 出 每 一 张 图 像 的 所 有 标注 框 。 一 个 标注 框 有 四 个 数字 ， 分 别 代表 


xmin, ymax, xmax]。 
# 注意 这 里 给 出 的 数字 都 是 图 像 的 相对 位 置 。 比 如 在 180x267 的 图 像 中 ， 


# [0.35，0.47，0.5，90.56] 代 表 了 从 〈63，125) 到 〈90，150) 的 图 


boxes = tf.constant([[[0.05, 0.05, 0.9, 0.7], [0.35, 0.47, 


# 图 7-11 显 示 了 加 入 了 标注 框 的 图 像 。 





result = tf.image.draw bounding_boxes(batched，boxes ) 








0 50 100 150 200 250 
图 7-11 在 图 像 中 加 入 标注 框 ( 图 中 大 的 标注 框 标明 了 猫 脸 的 位 置 ， 小 的 标注 框 标 明了 猫 的 一 只 眼睛 的 位 置 》 




















和 随机 翻转 图 像 、 随 机 调整 颜色 类 似 ， 随 机 截取 图 像 上 有 信息 含量 的 部 分 也 是 一 个 提高 模 
型 健壮 性 (robustness) 的 一 种 方式 。 这 样 可 以 使 训练 得 到 的 模型 不 受 被 识别 物体 大 小 


的 影响 。 








下 面 的 程序 中 展示 了 如 何 通 过 


tf.image.sample_distorted_bounding_box 函 数 来 完成 随机 截取 图 像 的 过 程 。 


量 7 的 。 


分 


图 7-12 


boxes = tf.constant([[[0.05, 0.05, 0.9, 0.7], [0.35, 0.47, 


# 可 以 通过 提供 标注 框 的 方式 来 告诉 随机 截取 图 像 的 算法 哪些 部 分 是 “有 信息 


begin, size, bbox_ for draw = tf.image.sample distorted boun 


tf.shape(img data)，bounding boxes=boxes ) 


# 通过 标注 框 可 视 化 随机 鹤 取 得 到 的 图 像 。 得 到 的 结果 如 图 7-12 左 侧 所 示 。 
batched = tf,expand_ dims( 
tf.image.convert_ image dtype(img data, tf. float32), 0) 
image with_ box = tf.image.draw bounding boxes(batched, bbox 


# 截取 随机 出 来 的 图 像 。 得 到 的 结果 如 图 7-12 右 侧 所 示 。 因 为 算法 带 有 随机 成 


# 每 次 得 到 的 结果 会 有 所 不 同 。 








在 图 像 中 随机 加 入 的 标注 框 ( 左 〉 以 及 通过 这 个 标注 框 截取 的 图 像 ( 右 》) 


























7.2.2 图 像 预 处 理 完整 样 例 


在 7.2. 


1 小 节 中 详细 讲解 了 TensorFlow 提 供 的 主要 的 图 像 处 理 函 数 。 在 解决 真实 的 图 像 


识别 问题 时 ， 一 般 会 同时 使 用 多 种 处 理 方法 。 这 一 个 小 节 将 给 出 一 个 完整 的 样 例 程序 展示 
如 何 将 不 同 的 图 像 处 理 函 数 结合 成 一 个 完成 的 图 像 预 处 理 流程 。 以 下 TensorFlow 程 序 完 

















成 了 从 图 像 片段 截取 ， 到 图 像 大 小 调整 再 到 图 像 翻转 及 色彩 调整 的 整个 图 像 预 处理 

















import tensorflow as tf 


import numpy as np 


import matplotlib.pyplot as pilt 





过 程 。 


# 给 定 一 张 图 像 ， 随 机 调整 图 像 的 色彩 。 因 为 调整 亮度 、 对 比 度 、 饱 和 度 和 色相 的 


顺序 会 影 


# 啊 最 后 得 到 的 结果 ， 所 以 可 以 定义 多 种 不 同 的 顺序 。 具 体 使 用 哪 一 种 顺序 可 以 在 


训练 
# 数据 预 处 理 时 随机 的 选择 一 种 。 这 样 可 以 进一步 降低 无 关 因素 对 模型 的 影 
def distort color(image, color_ordering=0): 


if color_ordering == 


响 。 


image = tf.image.random brightness(image, max_delta=32. / 


image = tf.image.random saturation(image, lower=0.5, 


image = tf.image.random hue(image, max_delta=0.2) 


upper 


image = tf.image.random contrast(image, lower=0.5, upper=1 


elif color_ordering == 1: 


image = tf.image.random saturation(image, lower=0.5, 


upper 


image = tf.image.random brightness(image, max_delta=32. / 


image = tf.image.random contrast(image, lower=0.5, upper=1 


image = tf.image.random hue(image, max_delta=0.2) 
elif color_ordering == 2: 


# 还 可 以 定义 其 他 的 排列 ， 但 在 这 里 就 不 再 一 一 列 出 。 


return tf.clip_by_value(image, 0.0, 1.0) 














# 给 定 一 张 解码 后 的 图 像 、 目 标 图 像 的 尺寸 以 及 图 像 上 的 标注 框 ， 此 函数 可 以 对 给 
出 的 图 像 进行 预 

# 处 理 。 这 个 函数 的 输入 图 像 是 图 像 识别 问题 中 原始 的 训练 图 像 ， 而 输出 则 是 神经 
网 络 模型 的 输入 

# 层 。 注 意 这 里 只 处 理 模 型 的 训练 数据 ， 对 于 预测 的 数据 ， 一 般 不 需要 使 用 随机 变 
换 的 步 又 。 


def preprocess for_train(image, height, width, bbox): 


择 的 。 


# 如 果 没 有 提供 标注 框 ， 则 认为 整个 图 像 就 是 需要 关注 的 部 分 。 
if bbox is None : 
bbox = tf.constant([0.0，0.0，1.0，1.0|]， 


dtype=tf.float32, shape= 
4]) 


# 转换 图 像 张 量 的 类 型 。 





If image.dtype != tf.float32: 


image = tf.image.convert_ image dtype(image, dtype=tf.float 


# 随机 截取 图 像 ， 减 小 需要 关注 的 物体 大 小 对 图 像 识 别 算法 的 影响 。 
bbox_begin, bbox_size, _ = tf.image.sample distorted bound 
tf.shape(image), bounding_boxes=bbox) 

distorted_ image = tf.slice(image, bbox_begin, bbox_size) 


# 将 随机 截取 的 图 像 调整 为 神经 网 络 输入 层 的 大 小 。 大 小 调整 的 算法 是 随机 选 


distorted image = tf.image.resize images( 


distorted image, height, width, method=np.random.randint( 


# 随机 左右 翻转 图 像 。 


distorted image = tf.image.random flip_ left_right(distorte 


# 使 用 一 种 随机 的 顺序 调整 图 像 色彩 。 


distorted image = distort color(distorted_ image, np.random 


return distorted_ image 


image_raw data = tf.gfile.FastGFile("/path/to/picture", "r"). 


with tf.Session() as sess: 


img_data = tf.image.decode jpeg(image_raw_data) 


boxes = tf.constant([[[0.05, 0.05, 0.9, 0.7], [0.35, 0.47, 


# 运行 6 次 获得 6 种 不 同 的 图 像 ， 在 图 7-13 展 示 了 这 些 图 像 的 效果 。 
for i in range(6) : 
# 将 图 像 的 尺寸 调整 为 299x299。 
result = preprocess for_train(img_data, 299, 299, boxes) 
plt.imshow(result.eval()) 


plt. show() 





图 7-13 运行 6 次 图 像 预 处 理 得 出 的 6 张 不 同 的 图 像 


运行 上 面 这 段 程序 ， 可 以 得 到 类 似 图 7-13 中 所 示 的 图 像 。 这 样 就 可 以 通过 一 张 训练 图 像 
衍生 出 很 多 训练 样本 。 通 过 将 训练 图 像 进行 预 处 理 ， 训 练 得 到 的 神经 网 络 模型 可 以 识别 不 
同 大 小 、 方 位 、 色 彩 等 方面 的 实体 。 


7.3 多 线程 输入 数据 处 理 框 染 


在 7.2 节 中 介绍 了 使 用 TensorFlow 对 图 像 数 据 进行 预 处 理 的 方法 。 虽 然 使 用 这 些 图 像 数 
据 预 处 理 的 方法 可 以 减 小 无 关 因 素 对 图 像 识 别 模型 效果 的 影响 ， 但 这 些 复 杂 的 预 处 理 过 程 
也 会 减 慢 整个 训练 过 程 ” 包 一。 为 了 避免 图 像 预 处 理 成 为 神经 网 络 模型 训练 效率 的 上 瓶 颈 ， 
TensorFlow 提 供 了 一 套 多 线程 处 理 输入 数据 的 框架 。 在 本 节 中 将 详细 介绍 这 个 框架 。 图 
Bs 
旦 的 不 同 部 分 。 


指定 原始 数据 的 文件 列表 


创建 文件 列表 队列 


数据 预 处 理 


整理 成 Batch 作 为 神经 网 络 输入 























图 7-14 经 典 输入 数据 处 理 流程 图 


7.3.1 小 节 将 首先 介绍 TensorFlow 中 队列 的 概念 。 在 TensorFlow 中 ， 队 列 不 仅 是 一 种 
数据 结构 ， 它 更 提供 了 多 线程 机 制 。 队 列 也 是 TensorFlow 多 线程 输入 数据 处 理 框架 的 基 
础 。 然 后 在 7, 3,2 小 节 中 将 介绍 如 何在 TensorFlow 中 实现 图 7-14 中 的 前 三 步 。 
TensorFlow 提 供 了 tf.train.string_input_producer 函 数 来 有 效 管理 原始 输入 文 
件 列表 。 在 7.3.2 小 节 中 将 重点 介绍 如 何 使 用 这 个 函数 。 图 7-14 中 数据 预 处 理 的 部 分 已 
经 在 7.2 节 中 有 过 详细 介绍 ， 本 节 不 再 重复 。 接 着 在 7.3.3 小 节 中 将 介绍 图 7-14 中 的 最 
后 一 个 流程 。 这 个 流程 将 处 理 好 的 单个 训练 数据 整理 成 训练 数据 ”batch， 这 些 batch 就 
可 以 作为 神经 网 络 的 输入 。7.3.3 小 节 将 介绍 tf.train.shuffle_batch_join 和 
tf.train.shuffle_batch 函 数 ， 并 比较 不 同 函 数 的 多 线程 并 行 方式 。 最 后 在 7 .3 .4 
小 节 中 将 给 出 一 个 完整 的 TensorFlow 程 序 来 展示 整个 输入 数据 处 理 框架 。 


7.3.1 队列 与 多 线程 


在 TensorFlow 中 ， 队 列 和 变量 类 似 ， 都 是 计算 图 上 有 状态 的 节点 。 其 他 的 计算 节点 可 以 
修改 它们 的 状态 。 对 于 变量 ， 可 以 通过 赋值 操作 修改 变量 的 取 值 鱼 -。 对 于 队列 ， 修 改 队 
列 状态 的 操作 主要 有 Enqueue、EnqueueMany 和 Dequeue。 以 下 程序 展示 了 如 何 使 用 这 
些 函 数 来 操作 一 个 队列 。 
































































































































Import tensorflow as tf 


# 创建 一 个 先进 先 出 队列 ， 指 定 队 列 中 最 多 可 以 保存 两 个 元 素 ， 并 指定 类 型 为 整 


q = tf.FIFOQUeUe(2, "int32") 


| # 使 用 enqueue_many 函 数 来 初始 化 队列 中 的 元 素 。 和 变量 初始 化 类 似 ， 在 使 用 队 
列 之 前 


# 需要 明确 的 调用 这 个 初始 化 过 程 。 
init = q.enqueue many(([0, 10],)) 


# 使 用 Dequeue 函 数 将 队列 中 的 第 一 个 元 素 出 队列 。 这 个 元 素 的 值 将 被 存在 变量 x 


x = q.dequeue() 

# 将 得 到 的 值 加 1。 
y=x+1 

# 将 加 1 后 的 值 在 重新 加 入 队列 。 


dqd_inc = q.enqueue([y]) 


with tf.Session() as sess: 
# 运行 初始 化 队列 的 操作 。 
init.run() 

for _ in range(5): 


# 运行 9_inc 将 执行 数据 出 队列 、 出 队 的 元 素 +1、 重 新 加 入 队列 的 整个 过 


V, = sess.run([x, q_inc]) 


# 打印 出 队 元 素 的 取 值 。 


print V 


队列 开始 有 [9, 10] 两 个 元 素 ， 第 一 个 出 队 的 为 90， 加 1 之 后 再 次 入 队 得 到 的 队列 为 
[19,1];， 第 二 次 出 队 的 为 16， 加 1 之 后 入 队 的 为 11， 得 到 的 队列 为 [1 11]; 以 此 类 
推 ， 最 后 得 到 的 输出 为 : 


TensorFlow 中 提供 了 FIFOQueue 和 RandomShuffleQueue 两 种 队列 。 在 上 而 的 程序 
中 ， 已 经 展示 了 如 何 使 用 FIFOQueue， 它 的 实现 的 是 一 个 先进 先 出 队列 。 
RandomShuffleQueue 会 将 队列 中 的 元 素 打 乱 ， 每 次 出 队列 操作 得 到 的 是 从 当前 队列 所 
有 元 素 中 随机 选择 的 一 个 。 在 训练 神经 网 络 时 希望 每 次 使 用 的 训练 数据 尽量 随机 ， 
eT or 了 这 样 的 功能 。 


re 队列 不 仅仅 是 一 种 数据 结构 ， 还 是 异步 计算 张 量 取 值 的 一 个 重要 机 
制 。 比 如 多 个 线程 可 以 同时 向 一 个 队列 中 写 元 素 ， 或 者 同时 读 取 一 个 队列 中 的 元 素 。 在 后 
面 的 小 节 中 将 具体 介绍 TensorFlow 是 如 何 利用 队列 来 实现 多 线程 输入 数据 处 理 的 。 在 本 
小 节 之 后 的 内 容 中 将 先 介 绍 TensorFlow 提 供 的 辅助 函数 来 更 好 地 协同 不 同 的 线程 。 


TensorFlow 提 供 了 tf.Coordinator 和 tf .QueueRunner 两 个 类 来 完成 多 线程 协同 的 
功能 。tf .Coordinator 主 要 用 于 协同 多 个 线程 一 起 停止 ， 并 提供 了 should_stop、 
request_stop 和 join 三 个 函数 。 在 启动 线程 之 前 ， 需 要 先 声 明 一 个 tf.Coordinator 
类 ， 并 将 这 个 类 传 入 每 一 个 创建 的 线程 中 。 启 动 的 线程 需要 一 直 查 询 tf.Coordinator 
类 中 提供 的 should_stop 函 数 ， 当 这 个 函数 的 返回 值 为 True 时 ， 则 当前 线程 也 需要 退 
出 。 每 一 个 启动 的 线程 都 可 以 通过 调用 request_stop 函 数 来 通知 其 他 线程 退出 。 当 某 
一 个 线程 调用 redquest_stop 函 数 之 后 ，shou1d_stop 函 数 的 返回 值 将 被 设置 为 
True， 这 样 其 他 的 线程 就 可 以 同时 终止 了 。 以 下 程序 展示 了 如 何 使 用 


tf.Coordinator。 





















































































































































Import tensorflow as tf 


import numpy as np 
Import threading 


Import time 





# 线程 中 运行 的 程序 ， 这 个 程序 每 隔 1 秒 判断 是 否 需 要 停止 并 打印 自己 的 ID。 
def MyLoop(coord, worker_id): 
# 使 用 tf.Coordinator 类 提供 的 协同 工具 判断 当前 线程 是 否 需 要 停止 。 
while not coord.should_ stop(): 
# 随机 停止 所 有 的 线程 。 
if np.random.rand() < 0.1 : 
print "Stoping from id: %d\n" % worker_id, 
# 调用 coord.request_stop() 函 数 来 通知 其 他 线程 停止 。 
coord.request_stop() 
@lse: 
# 打印 当前 线程 的 Id。 
print "Working on id: %d\n" % worker_ id， 
# 暂停 1 秒 


time.sleep(1) 


# 声明 二 个 tf ,train.Coordinator 类 来 协同 多 个 线程 。 
coord = tf.train.Coordinator() 

# 声明 创建 5 个 线程 。 

threads = [ 


threading.Thread(target=MyLoop, args= 
(coord, i, )) for i in xrange(5)] 


# 启动 所 有 的 线程 。 
for t in threads: t.start() 
# 等 待 所 有 线程 退出 


coord.join(threads) 











运行 上 面 的 程序 ， 可 以 得 到 类 似 下 面 的 结果 : 


Working on id: 0 

Working on id: 1 

Working on id: 2 

Working on id: 4 

Working on id: 3 

Working on id: 0 

Stoping from id: 4 

Working on id: 1 
当 所 有 线程 月 动 之 后 ， 每 个 线程 会 打印 各 目的 ID， 于 是 前 面 4 行 打印 出 了 它们 的 ID。 然 后 
在 暂停 1 秒 之 后 ， 所 有 线程 又 开始 第 二 遍 打 印 ID。 在 这 个 时 候 有 一 个 线程 退出 的 条 件 达 
到 ， 于 是 调用 oord eaest op 国 区 汪 区 下 押 其 他 的 线程 。 然 而 在 打印 
Stoping from id: 4 之 后 ， 可 以 看 到 有 线程 仍然 在 输出 。 这 是 因为 这 些 线程 已 经 执行 
完 coord,shou1ld_stop 的 判断 ， 于 是 仍然 会 继续 输出 自己 的 ID。 但 在 下 一 轮 判断 是 否 
需要 停止 时 将 退出 线程 。 于 是 在 打印 一 次 ID 之 后 就 不 会 再 有 输出 了 。 
ueRunner 启动 的 这 些 线程 可 以 通 


上 面 介绍 的 tf ,Coordinator 类 来 统 EE 。 以 下 代码 展示 了 如 何 使 用 
tf. OUeiERURNET 省 让， coordinator 来 管理 多 线程 队列 操作 。 
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import tensorflow as tf 


# 声明 一 个 先进 先 出 的 队列 ， 队 列 中 最 多 100 个 元 素 ， 类 型 为 实数 。 
dueue = tf.FIFOQueue(100， "float") 
# 定义 队列 的 入 队 操作 。 


endqueue_op = queue.enqueue([tf.random normal([1])1) 


# 使 用 tf.train.QueueRunner 来 创建 多 个 线程 运行 队列 的 入 队 操 作 。 


# ”tf.train.QueueRunner 的 第 一 个 参数 给 出 了 被 操作 的 队列 ， 
[enqueue op] * 5 


# 表示 了 需要 启动 5 个 线程 ， 每 个 线程 中 运行 的 是 enqueue_op 操 作 。 


qr = tf.train.QueueRunner(queue, [enqueue op] * 5) 


# 将 定义 过 的 QueueRunner 加 入 TensorFlow 计 算 图 上 指定 的 集合 。 
# tf,train.add_queue_runner 函 数 没有 指定 集合 ， 


# 则 加 入 默认 集合 tf,GraphKeys .QUEUE_RUNNERS 。 下 面 的 函数 就 是 将 刚刚 定 
的 


# qr 加 入 默认 的 tf.GraphKeys .QUEUE_RUNNERS 集 合 。 
tf.train.add queue_runner (qr) 
# 定义 出 队 操 作 。 


out_tensor = queue.dequeue() 


with tf.Session() as sess: 
# 使 用 tf.train.Ccoordinator 来 协同 启动 的 线程 。 
coord = tf.train.Coordinator() 


下 使 用 tf.train.QueueRunner 时 ， 需 要 明确 调用 
tf.train.start_queue_runners 


# 来 启动 所 有 线程 。 和 否则 因为 没有 线程 运行 入 队 操作 ， 当 调用 出 队 操作 时 ， 程 序 会 


一 直 等 待 入 


入 


# 队 操 作 被 运行 。tf.,train.start _ queue_runners 函 数 会 默认 启动 


# tf.GraphKeys.QUEUE_RUNNERS 集 合 中 所 有 的 QueueRunner。 因 为 这 个 函数 
只 文 持 启 


# 动 指定 集合 中 的 QueueRnner， 所 以 一 般 来 说 tf ,train,add_ queue_runner 
函数 和 


# tf.train.start queue_runners 函 数 会 指定 同一 个 集合 。 
threads = tf,train.start_ queue runners(sess=sess, coord=coord 
# 获取 队列 中 的 取 值 。 


for _ in range(3): print sess.run(out tensor)[0] 


# 使 用 tf.train.Coordinator 来 停止 所 有 的 线程 。 
coord.request_ stop() 


coord.join(threads) 


上 面 的 程序 将 启动 五 个 线程 来 执行 队列 入 队 的 操作 ， 其 中 每 一 个 线程 都 是 将 随机 数 
写 入 队列 。 于 是 在 每 次 运行 出 队 操作 时 ， 可 以 得 到 一 个 随机 数 。 运 行 这 段 程序 可 以 得 到 类 
似 下 面 的 结果 : 

-0.315963 

-1.06425 


0.347479 


7.3.2 输入 文件 队列 


本 小 节 将 介绍 如 何 使 用 TensorFlow 中 的 队列 管理 输入 文件 列表 。 在 这 一 小 节 中 ， 假 设 所 
有 的 输入 数据 都 已 经 整理 成 了 TFRecord 格 式 鱼 -。 虽 然 一 个 TFRecord 文 件 中 可 以 存储 多 



























































个 训练 样 例 ， 但 是 当 训 练 数据 量 较 大 时 ， 可 以 将 数据 分 成 多 个 TFRecord 文 件 来 提高 处 理 
效率 。TensorFlow 提 供 了 tf.train.match_filenames_once 函 数 来 获取 符合 一 个 
正则 表达 式 的 所 有 文件 ， 得 到 的 文件 列表 可 以 通过 

tf.train.string_input_producer 函 数 进行 有 效 的 管理 。 


tf.train.string_input_producer 函 数 会 使 用 初始 化 时 提供 的 文件 列表 创建 一 个 输 
入 队列 ， 输 入 队列 中 原始 的 元 素 为 文件 列表 中 的 所 有 文件 。 如 7 .1 节 中 的 样 例 代码 所 示 ， 
创建 好 的 输入 队列 可 以 作为 文件 读 取 函数 的 参数 。 每 次 调用 文件 读 取 函数 时 ， 该 函数 会 先 
判断 当前 是 否 已 有 打开 的 文件 可 读 ， 如 果 没 有 或 者 打开 的 文件 已 经 读 完 ， 这 个 函数 会 从 输 
入 队列 中 出 队 一 个 文件 并 从 这 个 文件 中 读 取 数 据 。 


通过 设置 shuffle 参 数 ，tf .train.string_input_producer 函 数 支持 随机 打 乱 文 
件 列 表 中 文件 出 队 的 顺序 。 当 shuff1e 参 数 为 True 时 ， 文 件 在 加 入 队列 之 前 会 被 打 乱 顺 
序 ， 所 以 出 队 的 顺序 也 是 随机 的 。 随 机 打 乱 文件 顺序 以 及 加 入 输入 队列 的 过 程 会 跑 在 一 个 
单独 的 线程 上 ， 这 样 不 会 影响 获取 文件 的 速度 。tf ,train.string_input_producer 
生成 的 输入 队列 可 以 同时 被 多 个 文件 读 取 线程 操作 ， 而 且 输 入 队列 会 将 队列 中 的 文件 均匀 
地 分 给 不 同 的 线程 ， 不 出 现 有 些 文 件 被 处 理 过 多 次 而 有 些 文件 还 没有 被 处 理 过 的 情况 。 


当 一 个 输入 队列 中 的 所 有 文件 都 被 处 理 完 后 ， 它 会 将 初始 化 时 提供 的 文件 列表 中 的 文件 全 
部 重新 加 入 队列 。tf ,train,string_input_producer 函 数 可 以 设置 num_epochs 参 
数 来 限制 加 载 初始 文件 列表 的 最 大 轮 数 。 当 所 有 文件 都 已 双 被 使 用 了 设 定 的 轮 数 后 ， 如 果 
继续 尝试 读 取 新 的 文件 ， 输 入 队列 会 报 OutofRange 的 错误 。 在 测试 神经 网 络 模型 时 ， 
为 所 有 测试 数据 只 需要 使 用 一 次 ， 所 以 可 以 将 num_ epochs 参 数 设置 为 1. 这 样 在 计算 完 
一 轮 之 后 程序 将 自动 停止 。 在 展示 tf.train,match_filenames_once 和 
tf.train.string_input_producer 函 数 的 使 用 方法 之 前 ， 下 面 先 给 出 一 个 简单 的 程 
序 来 生成 样 例 数据 。 

















































































































































































































import tensorflow as tf 


# 创建 TFRecord 文 件 的 帮助 函数 。 
def _int64 feature(value): 


return tf.train.Feature(int64 list=tf.train.Int64List(value= 
[value|])) 


# 模拟 海量 数据 情况 下 将 数据 写 入 不 同 的 文件 。num_shards 定 义 了 总 共 写 入 多 少 


人 


村 


# instances_per_shard 定 义 了 每 个 文件 中 有 多 少 个 数据 。 


num_shards = 2 


instances_per_shard = 2 
for i in range(num_shards): 


# 将 数据 分 为 多 个 文件 时 ， 可 以 将 不 同文 件 以 类 似 0000n-of-000g0m 的 后 缀 区 分 。 


其 中 m 表 


# 示 了 数据 总 共 被 存在 了 多 少 个 文件 中 ，n 表 示 当 前 文件 的 编号 。 式 样 的 方式 既 方 
便 了 通过 正 


# 则 表达 式 获取 文件 列表 ， 双 在 文件 名 中 加 入 了 更 多 的 信息 。 


filename = ('/path/to/data.tfrecords-%.5d-of- 
%.5d' % (i, num_shards)) 








writer = tf.python io.TFRecordwriter(filename) 
# 将 数据 封装 成 ExXample 结 构 并 写 入 TFRecord 文 件 。 
for j in range(instances_ per_shard): 


# Example 结 构 仅 包含 当前 样 例 属于 第 儿 个 文件 以 及 是 当前 文件 的 第 几 个 样 





example = tf.train.Example(features=tf.train.Features(fea 


'i': _int64 feature(i), 
'J]': _int64 feature(])})) 
writer.write(example.SerializeToString()) 


writer.close() 








程序 运行 之 后 ， 在 指定 的 目录 下 将 生成 两 个 文件 : /path/to/data.tfrecords- 
90000-of-00002 和 /path/to/data.tfrecords-00001-of-00002。 每 一 个 文件 
中 存储 了 两 个 样 例 。 在 生成 了 样 例 数据 之 后 ， 以 下 代码 展示 了 

tf,train.match_filenames_once 函 数 和 tf.train.string_input_producer 


函数 的 使 用 方法 。 











Import tensorflow as tf 


# 使 用 tf.train.match filenames_once 函 数 获取 文件 列表 。 


files = tf.train.match filenames once("/path/to/data.tfrecord 


Ee ) 





# 通过 tf.train.string_input_producer 函 数 创建 输入 队列 ， 输 入 队列 中 的 
文件 列表 为 


# tf.train.match _ filenames once 函数 获取 的 文件 列表 。 这 里 将 Shuff1le 
参数 设 为 False 


# 来 避免 随机 打 乱 读 文件 的 顺序 。 但 一 般 在 解决 真实 问题 时 ， 会 将 shuffle 参 数 设 
为 True。 


filename queue = tf.train.string_ input_producer(files, shuffl 


# 如 7.1 节 中 所 示 读 取 并 解析 一 个 样本 。 
reader = tf.TFRecordReader() 
_, Serialized example = reader.read(filename_ queue) 
features = tf.parse_ single example( 
serialized example, 
features={ 
'i': tf.FixedLenFeature([], tf.int64), 
'j': tf.FixedLenFeature([], tf.int64), 


}) 


with tf.Session() as sess: 


# 虽然 在 本 段 程序 中 没有 声明 任何 变量 ， 但 使 用 


tf.train,match_ filenames_once 函 数 时 需 


# 要 初始 化 一 些 变 量 。 


tf.initialize _ all variables().run() 

打印 文件 列表 将 得 到 下 面 的 结果 : 

['/path/to/data.tfrecords-00000-of-00002' 
'/path/to/data.tfrecords-00001-of-00002'] 


print sess.run(files) 


# 声明 tf.train.Coordinator 类 来 协同 不 同 线程 ， 并 启动 线程 。 
coord = tf.train.Coordinator() 


threads = tf.train.start_ queue_runners(sess=sess, CoOrd=coo 


# 多 次 执行 获取 数据 的 操作 。 
for i in range(6): 

print sess.run([features['i'], features['j']]) 
coord.request_ stop() 


coord.join(threads) 


上 面 的 打印 将 输出 : 


[9，0] 
[9, 1] 
[1, 9] 
[1, 1] 


[09, 9] 


[0,1] 


在 不 打 乱 文件 列表 的 情况 下 ， 会 依次 读 出 样 例 数据 中 的 每 一 个 样 例 。 而 且 当 所 有 样 例 都 被 
读 完 之 后 ， 程 序 会 自动 从 头 开 始 。 如 果 限 制 num_epochs 为 1， 那 么 程序 将 会 报错 : 




















tensorflow.python.framework.errors.OutofRangeError: FIFOQueue 


[[Node : ReaderRead = ReaderRead[_class= 
["loc:Q@TFRecordReader", "loc: @input_ producer"], _device="/job:1l0o 
(TFRecordReader, input_producer)]] 


7.3.3 组 合 训练 数据 (batching) 


在 7.3 .2 小 节 中 已 经 介绍 了 如 何 从 文件 列表 中 读 取 单个 样 例 ， 将 这 些 单 个 样 例 通过 7 .2 节 
中 介绍 的 预 处 理 方法 进行 处 理 ， 就 可 以 得 到 提供 给 神经 网 络 输入 层 的 训练 数据 了 。 在 第 4 
章 介 绍 过 ， 将 多 个 输入 样 例 组织 成 一 个 batch 可 以 提高 模型 训练 的 效率 。 所 以 在 得 到 单个 
样 例 的 预 处 理 结果 之 后 ， 还 需要 将 它们 组 织 成 bpatch， 然 后 再 提供 给 神经 网 络 的 输入 层 。 
TensorFlow 提 供 了 tf.train.batch 和 tf.train.shuffle_batch 函 数 来 将 单个 的 
样 例 组 织 成 batch 的 形式 输出 。 这 两 个 函数 都 会 生成 一 个 队列 ， 队 列 的 入 队 操 作 是 生成 单 
个 样 例 的 方法 ， 而 每 次 出 队 得 到 的 是 一 个 batch 的 样 例 。 它 们 唯一 的 区 别 在 于 是 否 会 将 数 
据 顺 序 打 乱 。 以 下 代码 展示 了 这 两 个 函数 的 使 用 方法 。 












































































































































import tensorflow as tf 


# 使 用 7.3.2 小 节 中 的 方法 读 取 并 解析 得 到 样 例 。 这 里 假设 Example 结 构 中 i 表示 
一 个 样 例 的 


# 特征 向 量 ， 比 如 一 张 图 像 的 像素 矩阵 。 而 j 表 示 该 样 例 对 应 的 标签 。 


exampJe，Jlabel = features['i'], features['j'] 


# 一 个 patch 中 样 例 的 个 数 。 
bartchasize 


# 组 合 样 例 的 队列 中 最 多 可 以 存储 的 样 例 个 数 。 这 个 队列 如 果 太 大 ， 那 么 需要 占用 


4 


很 多 内 存 资源 ; 


# 如 果 太 小 ， 那 么 出 队 操作 可 能 会 因为 没有 数据 而 被 阻碍 block〉， 从 而 导致 训 
练 效率 降低 。 一 般 


# 来 说 这 个 队列 的 大 小 会 和 每 一 个 batch 的 大 小 相关 ， 下 面 一 行 代码 给 出 了 设置 队 
列 大 小 的 一 种 


六 3 


capacity = 1000 + 3 * batch_size 


# 使 用 tf.train.batch 函 数 来 组 合 样 例 。[example， label1] 参 数 给 出 了 需要 
组 合 的 元 素 ， 


# ”一 般 example 和 label 分 别 代表 训练 样本 和 这 个 样本 对 应 的 正确 标签 。 
batch_size 参 数 给 出 


# 了 每 个 batch 中 样 例 的 个 数 。capacity 给 出 了 队列 的 最 大 容量 。 当 队列 长 度 等 
于 容量 时 ， 


## TensorF1Low 将 暂停 入 队 操 作 ， 而 只 是 等 待 元 素 出 队 。 当 元 素 个 数 小 于 容量 时 ， 
TensorFlow 


# 将 自动 重新 启动 入 队 操作 。 
example_batch, label _ batch = tf.train.batch( 


[example, label], batch_size=batch_size, capacity=capacity) 


with tf.Session() as sess: 
tf.initialize all variables().run() 
coord = tf.train.Coordinator() 


threads = tf.train.start queue_runners(sess=sess, coord=coord 


# 获取 并 打印 组 合 之 后 的 样 例 。 在 真实 问题 中 ， 这 个 输出 一 般 会 作为 神经 网 络 的 输 


for i in range(2): 


cur_example_ batch, cur_label batch = sess.run( 
[example_batch, label batch]) 


print cur_example batch, cur_label batch 


coord.request_ stop() 


coord.join(threads) 





运行 上 面 的 程序 可 以 得 到 下 面 的 输出 : 
ole Re |e 
Ce ey 


从 这 个 输出 可 以 看 到 tf ,train.batch 函 数 可 以 将 单个 的 数据 组 织 成 3 个 一 组 的 
batch。 


在 example，1label 中 读 到 的 数据 依次 为 : 
example: 0, lable:0 
example: ©0, lable:1 
example: 1, lable:0 
example: 1, lable:1 


这 是 因为 tf.train.batch 函 数 不 会 随机 打 乱 顺序 ， 所 以 组 合 之 后 得 到 的 数据 组 合 
成 了 上 面 给 出 的 输出 。 





下 面 一 段 代码 展示 了 tf .train.shuffle_batch 函 数 的 使 用 方法 。 


# 和 tf,train,.,batch 的 样 例 代码 一 样 产生 example 和 label。 


exampJe，Jlabel = features['i'], features['j'] 


大 使 用 tf.train.shuffle_ batch 函数 来 组 合 样 例 。 
tf.train.shuffle_ batch 函数 


# 的 参数 大 部 分 都 和 tf.train.batch 函 数 相似 ， 但 是 min_after_dedqueue 参 
数 是 


## tf.train.shuffle _ batch 函数 特有 的 。min after _dedueue 参 数 限制 了 
出 队 时 队列 中 元 


# 素 的 最 少 个 数 。 当 队列 中 元 素 太 少时 ， 随 机 打 乱 样 例 顺序 的 作用 就 不 大 了 。 所 以 


# tf.train.shuffle_batch 函 数 提供 了 限制 出 队 时 最 少 元 素 的 个 数 来 保证 随机 
打 乱 顺序 的 


# 作用 。 当 出 队 函 数 被 调用 但 是 队列 中 元 素 不 够 时 ， 出 队 操 作 将 等 待 更 多 的 元 素 入 
队 才 会 完成 。 


# 如 果 min_after_dequeue 参 数 被 设 定 ，capacity 也 应 该 相应 调整 来 满足 性 能 





example_batch, label batch = tf.train.shuffle batch( 
[example, labell], batch_size=batch_size, 


capacity=capacity, min_ after_dequeue=30) 


# 和 tf.train.batch 的 样 例 代码 一 样 打 印 example_batch,，label batch.。 


运行 上 面 的 代码 可 以 得 到 下 面 的 输出 : 
eva i elo 
ae le el es 


从 输出 中 可 以 看 到 ， 得 到 的 样 例 顺 序 已 经 被 打 乱 了 。 


tf.train.batch 函 数 和 tf.train.shuffle_batch 函 数 除了 可 以 将 单个 训练 数据 整 
理 成 输入 batch， 也 提供 了 并 行 化 处 理 输入 数据 的 方法 。tf ,train.batch 函 数 和 
tf,train,shuffle_batch 函 数 并 行 化 的 方式 一 致 ， 所 以 在 本 小 节 中 仅 以 应 用 得 更 多 
的 tf.train.shuffle _batch 函 数 为 例 。 通过 设置 tf.train,shuffle_batch 函 数 
中 的 num_threads 参 数 ， 可 以 指定 多 个 线程 同时 执行 入 队 操作 。 

tf.train.shuffle_batch 函 数 的 入 队 操作 就 是 数据 读 取 以 及 预 处 理 的 过 程 。 当 
num_threads 参 数 大 于 1 时 ， 多 个 线程 会 同时 读 取 一 个 文件 中 的 不 同样 例 并 进行 预 处 
理 。 如 果 需 要 多 个 线程 处 理 不 同文 件 中 的 样 例 时 ， 可 以 使 用 
tf.train.shuffle_batch_ join 函数 9-。 此 函数 会 从 输入 文件 队列 中 获取 不 同 的 文 
件 分 配给 不 同 的 线程 。 一 般 来 说 ， 输入 文件 队列 是 通过 7， 3 .2 中 介绍 的 
tf,train,.string_input_producer 函 数 生成 的 。 这 个 函数 会 平均 分 配 文件 以 保证 不 
同文 件 中 的 数据 会 被 尽量 平均 地 使 用 。 


tf.train.shuffJle_batch 函 数 和 tf.train.shuffle_batch_join 函 数 都 可 以 完 
成 多 线程 并 行 的 方式 来 进行 数据 预 处 理 ， 但 它们 各 有 优 劣 。 对 于 

tf.train.shuffle es 不 同 线程 会 读 取 同一 个 文件 。 如 果 一 个 文件 中 的 样 
例 比较 相似 《比如 都 属于 同一 个 类 别 ) ， 那 么 神经 网 络 的 训练 效果 有 可 能 会 受到 影响 。 所 
以 在 使 用 tf .train shuffle _batch 函 数 时 ， 需要 尽量 将 同一 个 TFRecord 文 件 中 的 样 
例 随 机 打 乱 。 而 使 用 tf .train,shuffle_batch_join 函 数 时 ， 不 同 线程 会 读 取 不 同 
文件 。 如 果 读 取 数 据 的 线程 数 比 总 文件 数 还 大 ， 那 么 多 个 线程 可 能 会 读 取 同 一 个 文件 中 相 
近 部 分 的 数据 。 而 且 多 个 线程 读 取 多 个 文件 可 能 导致 过 多 的 硬盘 寻 址 ， 从 而 使 得 读 取 效 率 
降低 。 不 同 的 并 行 化 方式 各 有 所 长 ， 具 体 采 用 哪 一 种 方法 需要 根据 具体 情况 来 确定 。 


7.3.4 输入 数据 处 理 框架 


在 前 面 的 小 节 中 己 经 介绍 了 图 7-14 所 展示 的 流程 图 中 的 所 有 步骤 。 在 这 一 小 节 将 把 这 些 
步骤 串 成 一 个 完成 的 TensorF1ow 来 处 理 输入 数据 。 以 下 代码 给 出 了 这 个 完成 的 程序 。 






















































































































































































import tensorflow as tf 


网 # 创建 文件 列表 ， 并 通过 文件 列表 创建 输入 文件 队列 。 在 调用 输入 数据 处 理 流 程 


Wi。 需 


# 统一 所 有 原始 数据 的 格式 并 将 它们 存储 到 TFRecord 文 件 中 。 下 面 给 出 的 文件 列 
表 应 该 包含 所 


# 有 提供 训练 数据 的 TFRecord 文 件 。 


files = tf.train.match filenames once("/path/to/file pattern- 


0 ) 


filename queue = tf.train,.string input_producer(files, shuffl 


# 使 用 类 似 7 ,1 节 中 介绍 的 方法 解析 TFRecord 文 件 里 的 数据 。 这 里 假设 image 中 
存储 的 是 图 像 


# 的 原始 数据 ，labe1l 为 该 样 例 所 对 应 的 标签 。height、width 和 channels 给 出 
了 图 片 的 维度 。 


reader = tf.TFRecordReader() 
_, Serialized example = reader.read(filename_queue) 
features = tf.parse_ single example( 
serialized example, 
features={ 
'image': tf.FixedLenFeature([], tf.string), 
'label': tf.FixedLenFeature([], tf.int64), 
'height': tf.FixedLenFeature([], tf.int64), 
'width': tf.FixedLenFeature([|], tf.int64), 
'channels': tf.FixedLenFeature([], tf.int64), 
}) 
image, label = features['image'|], features['label'] 
height, width = features['height'], features['width'] 


channels = features['channels'|] 





# 从 原始 图 像 数 据 解 析出 像素 矩阵 ， 并 根据 图 像 尺寸 还 原 图 像 。 
decoded image = tf.decode raw(image, tf.uint8) 
decoded_ image.set_shape([height, width, channels|]) 


# 定义 神经 网 络 输入 层 图 片 的 大 小 。 


image_size = 299 
# preprocess_for_ train 为 7.2.2 小 节 中 介绍 的 图 像 预 处 理 程序 。 
distorted image = preprocess_ for_ train( 


decoded_ image, image_ size, image_ size, None) 


# 将 处 理 后 的 图 像 和 标签 数据 通过 tf.train.shuffle batch 整 理 成 神经 网 络 训 
练 时 


# 需要 的 batch。 

min_after_dequeue = 10000 

batch_size = 100 

capacity = min _ after_dequeue + 3 * batch size 
image_batch, label batch = tf.train.shuffle batch( 
[distorted image, label], batch_ size=batch_size, 


capacity=capacity, min_after_dequeue=min_after_dequeue) 


# 定义 神经 网 络 的 结构 以 及 优化 过 程 。ijmage_batch 可 以 作为 输入 提供 给 神经 网 
络 的 输入 层 。 


# label_batch 则 提供 了 输入 batch 中 样 例 的 正确 答案 。 

logit = inference(image_ batch) 

loss = calc loss(logit, label batch) 

train_step = tf.train.GradientDescentOptimizer(learning_rate) 


.minimize(1loss) 


# 声明 会 话 并 运行 神经 网 络 的 优化 过 程 。 


with tf.Session() as sess: 


# 神经 网 络 训练 准备 工作 。 这 些 工 作 包 括 变量 初始 化 、 线 程 启动 。 
tf.initialize all variables().run() 
coord = tf.train.Coordinator() 


threads = tf.train.start_ queue_runners(sess=sess, coord=coord 


# 神经 网 络 训 练 过 程 。 
for i in range(TRAINING ROUDNS): 


sess.run(train_step) 


# 停止 所 有 线程 。 
coord.request_ stop() 


coord.join(threads) 














图 7-15 展 示 了 以 上 代码 中 输入 数据 处 理 的 整个 流程 。 从 图 7-15 中 可 以 看 出 ， 输 入 数据 处 
理 的 第 一 步 为 获取 存储 训练 数据 的 文件 列表 。 在 图 7-15 中 ， 这 个 文件 列表 为 {A, B,C}。 
通过 tf .train,.,string_input_producer 函 数 ， 可 以 选择 性 地 将 文件 列表 中 文件 的 顺 
序 打 乱 ， 并 加 入 输入 队列 。 因 为 是 否 打 乱 文件 的 顺序 是 可 选 的 ， 所 以 在 图 中 通过 虚线 表 
示 。tf.train.string_input_producer 函 数 会 生成 并 维护 一 个 输入 文件 队列 ， 不 同 
线程 中 的 文件 读 取 函 数 可 以 共享 这 个 输入 文件 队列 。 在 读 取样 例 数 据 之 后 ， 需 要 将 图 像 进 
行 预 处 理 。 图 像 预 处 理 的 过 程 也 会 通过 tf.train.shuffle_batch 提 供 的 机 制 并 行 地 
跑 在 多 个 线程 中 。 输入 数据 处 理 流 程 的 最 后 通过 tf.train.shuffle_batch 函 数 将 处 
好 的 单个 输入 样 例 整理 成 patch 提 供给 神经 网 络 的 输入 层 。 通 过 这 种 方式 ， 可 以 有 效 地 
提高 数据 预 处 理 的 效率 ， 避 免 数 据 预 处 理 成 为 神经 网 络 模型 训练 过 程 中 的 性 能 瓶颈 。 
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输入 文件 列表 输入 文件 队列 样 例 组 合 队 列 
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tf. train. string_input_producer tf. train. shuffle batch 
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7-15 输入 数据 处 理 流程 示意 








小 党 


本 章 通过 图 像 数 据 预 处 理 的 流程 ， 介 绍 了 TensorFlow 使 用 多 线程 处 理 输入 数据 的 框架 。 
虽然 本 章 以 图 像 数 据 处 理 为 例 ， 但 读者 可 以 很 容易 将 该 框架 移植 到 其 他 类 型 的 数据 预 处 理 
上 。 根 据 输入 数据 处 理 的 步骤 ， 在 本 章 的 三 节 中 分 别 介 绍 了 TensorF1Low 推 荐 的 输入 数据 
格式 、 图 像 预 处 理 算法 和 输入 数据 处 理 的 框架 。 首 先 在 7.1 节 中 介绍 了 如 何 通 过 
TensorFlow 提 供 的 TFRecord 格 式 来 统一 不 同 格式 的 输入 数据 。 这 一 节 给 出 了 样 例 程 序 
将 原始 的 输入 数据 转化 为 Example Protocol Buffer， 并 存储 到 TFRecord 文 件 中 ， 
也 给 出 了 具体 代码 从 TFRecord 文 件 中 读 取 数据 。 


接着 7 .2 节 介 绍 了 人 TensorFlow 中 主要 的 图 像 处 理 函 数 ， 并 给 出 了 一 个 完整 的 图 像 预 处 理 
过 程 。TensorF1Low 提 供 了 图 像 解码 、 图 像 大 小 调整 、 图 像 旋转 、 图 像 色 彩 调整 和 图 像 标 
注 框 处 理 等 方法 。 根 据 具 体 问 题 ， 可 以 采用 其 中 的 部 分 方法 来 弱化 与 此 问题 无 关 的 因素 。 
比如 对 于 数字 手写 体 识别 问题 ， 图 像 的 颜色 、 亮 度 等 与 识别 的 结果 无 关 ， 所 以 可 以 通过 

7.2 节 中 介绍 的 方法 来 弱化 这 些 因素 对 最 终 分 析 结 果 的 影响 。 


最 后 7.3 节 介绍 了 TensorFlow 提 供 的 多 线程 数据 预 处 理 流程 。 这 一 节 讲 解 了 
TensorFlow 通 过 队列 实现 多 线程 的 机 制 ， 并 介绍 了 TensorFlow 提 供 的 函数 来 进一步 支 
持 并 行 化 的 处 理 输入 数据 。 在 这 一 节 中 还 给 出 了 一 个 完整 的 数据 预 处 理 流程 图 和 
TensorF1Low 程 序 框架 。 
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(1) 关于 pyp1Lot 更 加 详细 的 介绍 可 以 参考 http:/V/matp1lLot1ib.org/index.htm]l 

















(2) 原始 图 像 是 彩色 的 ， 在 GitHub 代 码 库 里 有 原始 图 像 。 




















(3)。” 更 详细 的 介绍 可 以 参考 https://en.wikipedia.org/wiki/Bilinear_interpolation。 


(4)” 更 详细 的 介绍 可 以 参考 https://en.wikipedia.org/wiki/Nearest-neighbor_interpolation。 








(5)。” 更 详细 的 介绍 可 以 参考 https://en.wikipedia.org/wiki/Bicubic_interpolation。 








(6)_ 在 黑白 图 片上 色相 的 调整 不 是 特别 明显 ， 在 彩色 图 片上 的 效果 会 比较 明显 。 

























































































(7) 本章 中 主要 以 图 像 识别 应 用 为 背景 介绍 数据 预 处 理 流程 ， 但 读者 可 以 很 容易 将 这 个 框架 应 用 到 其 他 类 型 的 数据 





























(8) 第 3 章 介 绍 了 人 TensorFlow 计 算 图 中 集合 的 概念 。 

















(9) ”TFRecord 格 式 在 7.1 节 中 有 介绍 。 


























(10) ”如 果 不 需 要 随机 打 乱 输 入 数据 顺序 ， 可 以 使 用 tf.train.batch_join 函 数 完成 类 似 功能 。 


第 8 章 ”循环 神经 网 络 


第 6 章 中 讲解 了 卷 积 神经 网 络 的 网 络 结构 ， 并 介绍 了 如 何 使 用 卷 积 神经 网 络 解决 图 像 识别 
问题 。 本 章 中 将 介绍 另外 一 种 常用 的 神经 网 络 结构 一 循环 神经 网 络 (recurrent 
neural network，RNN) 以 及 循环 神经 网 络 中 的 一 个 重要 结构 一 长 短 时 记忆 网 络 
(long short-term memory，LSTM) 。 本 章 也 将 介绍 循环 神经 网 络 在 自然 语言 处 理 
Cnatural language processing，NLP) 问题 以 及 时 序 分 析 问 题 中 的 应 用 ， 并 给 出 
具体 的 TensorFlow 程 序 来 解决 一 些 经 典 的 问题 。 


首先 在 8.1 节 将 介绍 循环 神经 网 络 的 基本 知识 并 通过 机 器 翻译 问题 说 明 循环 神经 网 络 是 如 
何 被 应 用 的 。 这 一 节 中 将 给 出 一 个 具体 的 样 例 来 说 明 一 个 最 简单 的 循环 神经 网 络 的 前 向 传 
播 时 是 如 何 工作 的 。 然 后 在 8 ,2 节 中 将 介绍 循环 神经 网 络 中 最 重要 的 结构 一 长 短 时 记忆 网 
络 (long short term memory， LSTM) 的 网 络 结构 。 在 这 一 节 中 将 大 致 介绍 LSTM 
结构 中 的 主要 元 素 ， 并 给 出 具体 的 TensorFlow 程 序 来 实现 一 个 使 用 了 LSTM 结 构 的 循环 
神经 网 络 。 接 着 在 8 ,3 节 中 将 介绍 一 些 常 用 的 循环 神经 网 络 的 变种 。 最 后 在 8 ,4 节 中 将 结 
合 TensorFlow 对 这 些 网 络 结构 的 支持 ， 通 过 两 个 经 典 的 循环 神经 网 络 模型 的 应 用 案例 ， 
介绍 如 何 针 对 语言 模型 和 时 序 预 测 两 个 问题 ， 设 计 和 使 用 循环 神经 网 络 。 


8.1 循环 神经 网 络 简介 (24) 


循环 神经 网 络 (recurrent neural ”network，RNN) 源 自 于 1982 年 由 Saratha 
Sathasivam 提 出 的 霍 普 菲 尔 德 网 络 饵 -。 霍 普 菲 尔 德 网 络 因为 实现 困难 ， 在 其 提出 时 并 
且 没 有 被 合适 地 应 用 。 该 网 络 结构 也 于 1986 年 后 被 全 连接 神经 网 络 以 及 一 些 传统 的 机 器 
学 习 算 法 所 取代 。 然 而 ， 传 统 的 机 器 学 习 算法 非常 依赖 于 人 工 提 取 的 特征 ， 使 得 基于 传统 
机 器 学 习 的 图 像 识 别 、 语 音 识 别 以 及 自然 语言 处 理 等 问题 存在 特征 提取 的 瓶颈 。 而 基于 全 
连接 神经 网 络 的 方法 也 存在 参数 太 多 、 无 法 利用 数据 中 时 间 序 列 信 息 等 问题 。 随 着 更 加 有 
效 的 循环 神经 网 络 结构 被 不 断 提 出 ， 循 环 神经 网 络 挖掘 数据 中 的 时 序 信息 以 及 语义 信息 的 
并 在 语音 识别 、 语 言 模型 、 机 器 翻译 以 及 时 序 分 析 等 方面 实现 
突破 。 


循环 神经 网 络 的 主要 用 途 是 处 理 和 预测 序列 数据 。 在 之 前 介绍 的 全 连接 神经 网 络 或 卷 积 神 
经 网 络 模型 中 ， 网 络 结构 都 是 从 输入 层 到 隐 含 层 再 到 输出 层 ， 层 与 层 之 间 是 全 连接 或 部 分 
连接 的 ， 但 每 层 之 间 的 节点 是 无 连接 的 。 考 虑 这 样 一 个 问题 ， 如 果 要 预测 句子 的 下 一 个 单 
词 是 什么 ， 一 般 需 要 用 到 当前 单词 以 及 前 面 的 单词 ， 因 为 句子 中 前 后 单词 并 不 是 独立 的 。 
比如 ， 当 前 单词 是 “很 ”， 前 一 个 单词 是 “天 空 *， 那 么 下 一 个 单词 很 大 概率 是 “ 蓝 ”“。 循 环 












































































































































神经 网 络 的 来 源 束 是 为 了 刻画 一 个 序列 当前 的 输出 与 之 前 信息 的 关系 。 从 网 络 结构 上 ， 循 
环 神经 网 络 会 记忆 之 前 的 信息 ， 并 利用 之 前 的 信息 影响 后 面 结 点 的 输出 。 也 就 是 说 ， 循 环 
神经 网 络 的 隐藏 层 之 间 的 结 点 是 有 连接 的 ， 隐 藏 层 的 输入 不 仅 包括 输入 层 的 输出 ， 还 包括 
上 一 时 刻 隐藏 层 的 输出 。 


图 8-1 展 示 了 一 个 典型 的 循环 神经 网 络 。 对 于 循环 神经 网 络 ， 一 个 非常 重要 的 概念 就 是 时 

刻 。 循 环 神经 网 络 会 对 于 每 一 个 时 刻 的 输入 结合 当前 模型 的 状态 给 出 一 个 输出 。 从 图 8-1 

中 可 以 看 到 ， 循 环 神经 网 络 的 主体 结构 A 的 输入 除了 来 自 输 入 层 X ，， 还 有 一 个 循环 的 边 

来 提供 当前 时 刻 的 状态 。 在 每 一 个 时 刻 ， 循 环 神经 网 络 的 模块 A 会 读 取 上 时刻 的 输入 X ， 

， 并 输出 一 个 值 h ，。 同 时 A 的 状态 会 从 当前 步 传递 到 下 一 步 。 因 此 ， 循 环 神经 网 络 理论 

上 可 以 被 看 作 是 同一 神经 网 络 结构 被 无 限 复制 的 结果 。 但 出 于 优化 的 考虑 ， 目 前 循环 神经 
尔 有 助人 多 。 






















































































图 8-1 循环 神经 网 络 经 典 结构 示意 图 名 











在 图 8-2 中 可 以 更 加 清楚 的 看 到 循环 神经 网 络 在 每 一 个 时 刻 会 有 一 个 输入 X ，， 然 后 根据 
循环 神经 网 络 当前 的 状态 4 ， 提供 一 个 输出 h , 。 而 循环 神经 网 络 当前 的 状态 4 ， 是 根据 上 























一 时 刻 的 状态 A ，， 和 当前 的 输入 X ,共同 决定 的 。 从 循环 神经 网 络 的 结构 特征 可 以 很 容 
易 得 出 它 最 擅长 解决 的 问题 是 与 时 间 序 列 相关 的 。 循 环 神经 网 络 也 是 处 理 这 类 问题 时 最 自 
然 的 神经 网 络 结构 。 对 于 一 个 序列 数据 ， 可 以 将 这 个 序列 上 不 同时 刻 的 数据 依次 传 入 循环 
神经 网 络 的 输入 层 ， 而 输出 可 以 是 对 序列 中 下 一 个 时 刻 的 预测 ， 也 可 以 是 对 当前 时 刻 信息 
的 处 理 结 果 《〈 比 如 语音 识别 结果 ) 。 循 环 神经 网 络 要 求 每 一 个 时 刻 都 有 一 个 输入 ， 但 是 不 
一 定 每 个 时 刻 都 需要 有 输出 。 在 过 去 几 年 中 ， 循 环 神经 网 络 已 经 被 广泛 地 应 用 在 语音 识 
别 、 语 言 模型 、 机 器 翻译 以 及 时 序 分 析 等 问题 上 ， 并 取得 了 巨大 的 成 功 。 

































































图 8-2 循环 神经 网 络 按时 间 展 开 后 的 结构 


以 机 器 翻译 为 例 来 介绍 循环 神经 网 络 是 如 何 解决 实际 问题 的 。 循 环 神经 网 络 中 每 一 个 时 刻 
的 输入 为 需要 翻译 的 句子 中 的 单词 。 如 图 8-3 所 示 ， 需 要 翻译 的 句子 为 ABCD， 那 么 循环 
神经 网 络 第 一 段 每 一 个 时 刻 的 输入 就 分 别 是 A、B、C 和 D， 然 后 用 ″ “作为 待 翻译 句 子 的 
结束 符 。 在 第 一 段 中 ， 循 环 神经 网 络 没 有 输出 。 从 结束 符 ^″ 7 开始， 循环 神经 网 络 进 入 翻 
译 阶 段 。 该 阶段 中 每 一 个 时 刻 的 输入 是 上 一 个 时 刻 的 输出 ， 而 最 终 得 到 的 输出 就 是 句子 
ABCD 翻 译 的 结果 。 从 图 8-3 中 可 以 看 到 句子 ABCD 对 应 的 翻译 结果 就 是 XYZ， 而 Q 是 代表 翻 
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图 8-3 循环 神经 网 络 实现 序列 预测 示意 图 


如 之 前 所 介绍 ， 循 环 神经 网 络 可 以 被 看 做 是 同一 神经 网 络 结构 在 时 间 序 列 上 被 复制 多 次 的 
结果 ， 这 个 被 复制 多 次 的 结构 被 尔 之 为 循环 体 。 如 何 设计 循环 体 的 网 络 结构 是 循环 神经 网 
络 解决 实际 问题 的 关键 。 和 卷 积 神经 网 络 过 滤器 中 参数 是 共享 的 类 似 ， 在 循环 神经 网 络 
中 ， 循 环 体 网 络 结构 中 的 参数 在 不 同时 刻 也 是 共享 的 。 
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， 个 使 用 最 简单 的 循环 体 结构 的 循环 神经 网 络 ， 在 这 个 循环 体 中 只 使 用 了 一 

类 似 全 连接 层 的 神经 网 络 结构 。 下 面 将 通过 图 8-4 中 所 展示 的 神经 网 络 来 介绍 循环 神经 
同治 前 向 全 并 的 完整 流程- 循环 神经 网 络 中 的 状态 是 通过 一 个 向 量 来 表示 的 ， 这 个 向 量 的 
维度 也 称 为 循环 神经 网 络 隐藏 层 的 大 小 ， 假 设 其 为 h 。 从 图 8-4 中 可 以 看 出 ， 循 环 体 中 的 
神经 网 络 的 输入 有 两 部 分 ， 一 部 分 为 上 一 时 刻 的 状态 ， 另 一 部 分 为 当前 时 刻 的 输入 样本 。 
对 于 时 间 序 列 数据 来 说 《比如 不 同时 刻 商品 的 销量 ) ， 每 一 时 刻 的 输入 样 例 可 以 是 当前 时 
刻 的 数值 《比如 销量 值 ) ;对 于 语言 模型 来 说 ， 输 入 样 例 可 以 是 当前 单词 对 应 的 单词 向 量 


(word embedding) 乌 - 扎 -。 






























































图 8-4 ”使 用 单 层 全 连接 神经 网 络 作 为 循环 体 的 循环 神经 网 络 结构 图 包 


假设 输入 向 量 的 维度 为 x， 那 么 图 8-4 中 循环 体 的 全 连接 层 神经 网 络 的 输入 大 小 为 h+x 。 
也 就 是 将 上 一 时 刻 的 状态 与 当前 时 刻 的 输入 拼接 成 一 个 大 的 向 量 作 为 循环 体 中 神经 网 络 的 
输入 呈 -。 因 为 该 神经 网 络 的 输出 为 当前 时 刻 的 状态 ， 于 是 输出 层 的 节点 个 数 也 为 nh ， 循 
环 体 中 的 参数 个 数 为 《h+x) xh+h ”个 。 从 图 8-4 中 可 以 看 到 ， 循环 体 中 的 神经 网 络 输出 
不 但 提供 给 了 下 一 时 刻 作为 状态 ， 同 时 也 会 提供 给 当前 时 刻 的 输出 。 为 了 将 当前 时 刻 的 状 
态 转化 为 最 终 的 输出 ， 循环 神经 网 络 还 需要 另外 一 个 全 连接 神经 网 络 来 完成 这 个 过 程 。 这 
和 卷 积 神经 网 络 中 最 后 的 全 连接 层 的 意义 是 一 样 的 。 类 似 的 ， 不 同时 刻 用 于 输出 的 全 连接 
神经 网 络 中 的 参数 也 是 一 致 的 。 为 了 让 读者 对 循环 神经 网 络 的 前 向 传播 有 一 个 更 加 直观 的 
认识 ， 图 8-5 展 示 了 一 个 循环 神经 网 络 前 向 传播 的 具体 计算 过 程 。 


















































+ 


x 


0.537 | 0.462 


时 刻 
图 8-5 循环 神经 网 络 的 前 向 传播 的 计算 过 程 示意 图 

0 假设 状态 的 维度 为 2， 输 入 、 输 出 的 维度 都 为 1， 而 且 循 环 体 中 的 全 连接 层 中 
权重 为 : 


01 02| 
Wi 二 | 二 3 和 4 
05 06| 


偏 置 项 的 大 小 为 万 一 [0. 1.—0. 1| ， 用 于 输出 的 全 连接 层 权重 为 : 
2.0 





和 ou 


仿 置 项 大 小 为 站 a 人 |】 .那么 在 时 启 t 。， 因 为 没有 上 一 时 启 ， 所 


以 将 状态 初始 化 为 [6,B] ， 而 当前 的 输入 为 1， 所 以 拼接 得 到 的 向 量 为 [9, 0, 1] ， 通 过 循 
环 体 中 的 全 连接 层 神经 网 络 得 到 的 结果 为 : 
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这 个 结果 将 作为 下 一 时 刻 的 输入 状态 ， 同 时 循环 神经 网 络 也 会 使 用 该 状态 生成 输出 。 将 该 
向 量 作为 输入 提供 给 用 于 输出 的 全 连接 神经 网 络 可 以 得 到 t 。 时 刻 的 最 终 输 出 : 
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20 | 


使 用 上 ， 时 刻 的 状态 可 以 类 似 地 推导 得 出 4， 时 刻 的 状态 为 [9.869，0.884]， 而 t1 时 刻 
的 输出 为 2.73。 在 得 到 循环 神经 网 络 的 前 向 传播 结果 之 后 ， 可 以 和 其 他 神经 网 络 类 似 地 
定义 损失 函数 。 循 环 神经 网 络 唯一 的 区 别 在 于 因为 它 每 个 时 刻 都 有 一 个 输出 ， 所 以 循环 神 
经 网 络 的 总 损失 为 所 有 时 刻 〈 或 者 部 分 时 刻 ) 上 的 损失 函数 的 总 和 。 以 下 代码 实现 了 这 个 
简单 的 循环 神经 网 络 前 向 传播 的 过 程 。 

















import numpy as np 


兴 三 | 2] 
state = [0.0, 0.0] 


# 分 开 定义 不 同 输入 部 分 的 权重 以 方便 操作 。 


w_ cell state = np,asarray([[0,1，0.21，[10.3，0.4]]) 
w_cell input = np.asarray([0.5, 0.6]) 


b_cell = np.asarray([0.1, -0.1]) 


# 定义 用 于 输出 的 全 连接 层 参 数 。 


w_output = np.asarray([[1.0], [2.0]]) 


b_output 5 也 

# 按照 时 间 顺 序 执行 循环 神经 网 络 的 前 向 传播 过 程 。 

for i in range(len(X)): 

# 计算 循环 体 中 的 全 连接 层 神 经 网 络 。 

before activation = np.dot(state, w cell state) + 
X[i] * w cell input + b_cell 


state = np.tanh(before activation) 


# 根据 当前 时 刻 状 态 计算 最 终 输 出 。 


final output = np.dot(state, w_output) + b_output 


# 输出 每 个 时 刻 的 信息 。 
print "before activation: ", before activation 
print "state: ", state 


print "output: ", final output 





和 其 他 神经 网 络 类 似 ， 在 定义 完 损失 函数 之 后 ， 套 用 第 4 章 中 介绍 的 优化 框架 
TensorFlow 就 可 以 自动 完成 模型 训练 的 过 程 。 这 里 唯一 需要 特别 指出 的 是 ， 理 论 上 循环 
神经 网 络 可 以 支持 任意 长 度 的 序列 ， 然 而 在 实际 中 ， 如 果 序 列 过 长 会 导致 优化 时 出 现 梯度 
消散 的 问题 (the vanishing gradient problem) 印 -， 所 以 实际 中 一 般 会 规定 一 
个 最 大 长 度 ， 当 序列 长 度 超过 规定 长 度 之 后 会 对 序列 进行 截断 。 


8.2 长 短 时 记忆 网 络 (LSTM) 结构 


循环 神经 网 络 工作 的 关键 点 就 是 使 用 历史 的 信息 来 帮助 当前 的 决策 。 例 如 使 用 之 前 出 现 的 
单词 来 加 强 对 当前 文字 的 理解 。 循 环 神经 网 络 可 以 更 好 地 利用 传统 神经 网 络 结构 所 不 能 建 
模 的 信息 ， 但 同时 ， 这 也 带 来 了 更 大 的 技术 挑战 一 长 期 依赖 (long-term 


dependencies) 问题 。 


在 有 些 问题 中 ， 模 型 仅仅 需要 短期 内 的 信息 来 执行 当前 的 任务 。 比 如 预测 短语 “大 海 的 颜 
色 是 蓝 色 “中 的 最 后 一 个 单词 “ 蓝 色 “时 ， 模 型 并 不 需要 记忆 这 个 短语 之 前 更 长 的 上 下 文 信 
息 一 因为 这 一 句 话 已 经 包含 了 足够 的 信息 来 预测 最 后 一 个 词 。 在 这 样 的 场景 中 ， 相 关 的 
信息 和 符 预 测 的 词 的 位 置 之 间 的 间隔 很 小 ， 循 环 神经 网 络 可 以 比较 容易 地 利用 先前 信息 。 


但 同样 也 会 有 一 些 上 下 文 场 景 更 加 复杂 的 情况 。 比 如 当 模 型 试 着 去 预测 段落 “ 茶 地 开设 了 
大 量 工厂 ， 空 气 污染 十 分 严重 … 这 里 的 天 空 都 是 灰色 的 “的 最 后 一 个 单词 时 ， 仅 仅 根 据 短 
期 依赖 就 无 法 很 好 的 解决 这 种 问题 。 因 为 只 根据 最 后 一 小 段 ， 最 后 一 个 词 可 以 是 “ 蓝 色 
的 “或 者 “灰色 的 “。 但 如 果 模 型 需要 预测 清楚 具体 是 什么 颜色 ， 就 需要 考虑 先前 提 到 但 离 
当前 位 置 较 远 的 上 下 文 信息 。 因 此 ， 当 前 预测 位 置 和 相关 信息 之 间 的 文本 间隔 就 有 可 能 变 
得 很 大 。 当 这 个 间隔 不 断 增 大 时 ， 类 似 图 8-4 中 给 出 的 简单 循环 神经 网 络 有 可 能 会 丧失 学 
习 到 距离 如 此 远 的 信息 的 能 力 。 或 者 在 复杂 语言 场景 中 ， 有 用 信息 的 间隔 有 大 有 小 、 长 短 
不 一 ， 循 环 神经 网 络 的 性 能 也 会 受到 限制 。 


长 短 时 记忆 网 络 (long short term _ memory， LSTM) 的 设计 就 是 为 了 解决 这 个 问 
题 ， 而 循环 神经 网 络 被 成 功 应 用 的 关键 就 是 LSTM。 在 很 多 的 任务 上 ， 采 用 LSTM 结 构 的 循 
环 神经 网 络 比 标准 的 循环 神经 网 络 表现 更 好 。 在 下 文中 将 重点 介绍 LSTM 结 构 。LSTM 结 构 
是 由 Sepp Hochreiter 和 Jurgen Schmidhuber 名- 于 1997 年 提出 的 ， 它 是 一 种 特殊 
的 循环 体 结构 。 如 图 8-6 所 示 ， 与 单一 tanh 循 环 体 结构 不 同 ，LSTM 是 一 种 拥有 三 

个 “ 门 " 结 构 的 特殊 网 络 结构 。 























































































































































































































图 8-6 LSTM 单 元 结构 示意 图 


LSTM 靠 一 些 “ 门 “的 结构 让 信息 有 选择 性 地 影响 循环 神经 网 络 中 每 个 时 刻 的 状态 。 所 

谓 “ 门 “的 结构 就 是 一 个 使 用 sigmoid 神 经 网 络 和 一 个 按 位 做 乘法 的 操作 ， 这 两 个 操作 合 
在 一 起 就 是 一 个 “ 门 ” 的 结构 。 之 所 以 该 结构 叫做 “ 门 ”是 因为 使 用 sigmoid 作 为 激活 函数 
的 全 连接 神经 网 络 层 会 输出 一 个 0 到 1 之 间 的 数值 ， 描 述 当 前 输入 有 多 少 信息 量 可 以 通过 
这 个 结构 。 于 是 这 个 结构 的 功能 就 类 似 于 一 扇 门 ， 当 门 打开 时 (sigmoid 神 经 网 络 层 输 
出 为 1 时 ) ， Ei 息 都 可 以 通过 ;， 当 门 关 上 时 Csigmoid 神 经 网 络 层 输出 为 9 时 ) ， 任 
何 信息 都 无 法 通过 。 本 节 下 面 的 篇 幅 将 介绍 每 一 个 “ 门 " 是 如 何 工作 的 。 


为 了 使 循环 神经 网 更 有 效 的 保存 长 期 记忆 ， 图 8-6 中 “遗忘 门 ” 和 “输入 门 ”至 关 重 要 ， 它 
们 是 LSTM 结 构 的 核心 。“ 遗 筷 门 “的 作用 是 让 循环 神经 网 络 “ 瑟 记 ” 之 前 没有 用 的 信息 。 

如 一 段 文章 中 先 介 绍 了 某 地 原来 是 绿 水 蓝天 ， 但 后 来 被 污染 了 。 于 是 在 看 到 被 污染 了 之 
后 ， 循环 神经 网 络 应 该 7 让 记 7” 之 前 绿 水 蓝天 的 状态 。 这 个 工作 是 通过 “遗忘 门 " 来 完成 
的 “遗忘 门 会 根据 当前 的 输入 X ，、 上 一 时 刻 状态 c 。.， 和 上 一 时 刻 输 出 ，.， 共同 决 
定 哪 一 部 分 记忆 需要 被 遗 循环 神经 网 络 “ 态 记 ” 了 部 分 之 前 的 状态 后 ， 蕊 还 需要 从 
ne 这 个 过 程 就 是 “输入 门 ” 完 成 的 。 如 图 8-6 所 示 , “输入 

门 ” 会 根据 x , 、c ，， 和 hn ，， 决定 哪些 部 分 将 进入 当前 时 刻 的 状态 c ，。 比 如 当 看 到 文 
章 中 提 到 环境 被 污染 之 后 ， 模 型 需要 将 这 个 信息 写 入 新 的 状态 。 通 过 ” 道 忘 门 "和 /输入 
门 ”“，LSTM 结 构 可 以 更 加 有 效 的 决定 哪些 信息 应 该 被 遗 筷 ， 哪 些 信息 应 该 得 到 保留 。 


LSTM 结 构 在 计算 得 到 新 的 状态 c 。 后 需要 产生 当前 时 刻 的 输出 ， 这 个 过 程 是 通过 “输出 

门 “ 完 成 的 .“ 输 出门“ 会 根据 最 新 的 状态 c , 、 上 一 时 刻 的 输出 h ，， 和 当前 的 输入 x ,来 
ee :。 比如 当前 的 状态 为 被 污染 ， 那 么 “天 空 的 颜色 “后面 的 单词 很 可 能 
就 是 7 灰 色 的 ”。 


相 比 图 8-4 中 展示 的 循环 神经 网 络 ， 使 用 LSTM 结 构 的 循环 神经 网 络 的 前 向 传播 是 一 个 相 
对 比较 复杂 的 过 程 。 有 具体 LSTM 每 个 “ 门 " 中 的 公式 可 以 参考 论文 Long short-term 
memory ， 本 节 不 再 袭 述 。 在 TensorFlow 中 ，LSTM 结 构 可 以 被 很 简单 地 实现 。 以 下 代 
码 展示 了 在 TensorFlow 中 实现 使 用 LSTM 结 构 的 循环 神经 网 络 的 前 向 传播 过 程 。 

































































































































































# 定义 一 个 LSTM 结 构 。 在 TensorFlow 中 通过 一 句 简单 的 命令 就 可 以 实现 一 个 完 
LSTM 结 构 。 


# LSTM 中 使 用 的 变量 也 会 在 该 函数 中 自动 被 声明 。 


lstm = rnn_cell.BasicLSTMCell(lstm hidden size) 


# 将 LSTM 中 的 状态 初始 化 为 全 0 数组 。 和 其 他 神经 网 络 类 似 ， 在 优化 循环 神经 网 络 
时 ， 每 次 也 


# 会 使 用 一 个 batch 的 训练 样本 。 以 下 代码 中 ，batch_size 给 出 了 一 个 batch 的 
大 小 。 


# BasicLSTMCelL1 类 提供 了 zero_state 函 数 来 生成 全 领 的 初始 状态 。 


state = JStm,zero_state(batch_size，tf.float32) 


# 定义 损失 函数 。 
J]oss = 0.0 


有 虽然 理论 上 循环 神经 网 络 可 以 处 理 任 意 长 度 的 序列 ， 但 是 在 
训练 乓 大 





# ”避免 梯度 消散 的 问题 ， 会 规定 一 个 最 大 的 序列 长 度 。 在 以 下 代码 中 ， 用 


num_steps 
# 来 表示 这 个 长 度 。 
for i in range(num_ steps): 


二 二 章 在 第 “个 时 记 声 明 LSTM 结 构 中 使 用 的 变量 ， 在 之 后 的 时 刻 都 天 要 复 用 之 前 定义 
了 的 变量 。 





if i > 0: tf.get variable scope().reuse variables() 


并 每 一步 处 理 时 间 序列 中 的 一 个 时 刻 。 将 当前 输入 (current_input) 和 前 一 时 
刻 状态 


# (state) 传 入 定义 的 LSTM 结 构 可 以 得 到 当前 LSTM 结 构 的 输出 lstm_output 


和 更 新 后 
# 的 状态 state。 
lstm output, state = lstm(current_ input, state) 
# 将 当前 时 刻 LSTM 结 构 的 输出 传 入 一 个 全 连接 层 得 到 最 后 的 输出 。 
final output = fully_ connected(lstm output) 
# 计算 当前 时 刻 输出 的 损失 。 


loss += calc loss(final output, expected output) 


# 使 用 类 似 第 4 章 中 介绍 的 方法 训练 模型 。 








通过 上 面 这 段 代 码 看 到 ， 通 过 TensorFlow 可 以 非常 方便 地 实现 使 用 LSTM 结 构 的 循环 神 
经 网 络 ， 而 且 并 不 需要 用 户 对 LSTM 内 部 结构 有 深入 的 了 解 。 


8.3 循环 神经 网 络 的 变种 


在 以 上 几 节 中 已 经 完整 地 介绍 了 使 用 的 循环 神经 网 络 。 这 一 节 将 再 介绍 循环 神 
ee A i 以 及 它们 所 解决 的 问题 ， 同 时 也 会 给 出 如 何 使 用 TensorFlow 来 实 
现 这 些 a o 


8.3.1 双 回 循环 神经 网 络 和 深层 循环 神经 网 络 


在 经 典 的 循环 神经 网 络 中 ， 状 态 的 传输 是 从 前 往 后 单 向 的 。 然 而 ， 在 有 些 问 题 中 ， 当 前 时 
刻 的 输出 不 仅 和 之 前 的 状态 有 关系 ， 也 和 之 后 的 状态 相关 。 这 时 就 需要 使 用 双向 循环 神经 
网 络 (bidirectional RNN) 来 解决 这 类 问题 。 例 如 预测 一 个 语句 中 缺失 的 单词 不 仅 
需要 根据 前 文 来 判断 ， 也 需要 根据 后 面 的 内 容 ， 这 时 双向 循环 网 络 就 可 以 发 挥 它 的 作用 。 
双向 循环 神经 网 络 是 由 两 个 循环 神经 网 络 上 下 县 加 在 一 起 组 成 的 。 输 出 由 这 两 个 循环 神经 
网 络 的 状态 共同 决定 。 图 8-7 展 示 了 一 个 双向 循环 神经 网 络 的 结构 图 。 


从 图 8-7 中 可 以 看 到 ， 双 向 循环 神经 网 络 的 主体 结构 就 是 两 个 单 向 循环 神经 网 络 的 结合 。 
在 每 一 个 时 刻 t， 输 入 会 同时 提供 给 这 两 个 方向 相反 的 循环 神经 网 络 ， 而 输出 则 是 由 这 两 
个 单 向 循环 神经 网 络 共 同 决 定 。 双 向 循环 神经 网 络 的 前 向 传播 过 程 和 单 向 的 循环 神经 网 络 
十 分 类 似 ， 这 里 就 不 再 歼 述 。 更 多 关于 双 癌 神经 网 络 的 介绍 可 以 参考 Mike Schuster 和 


Kuldip K. Paliwal 发 表 的 论文 Bidirectional recurrent neural networks 
Ce)_ 
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图 8-7 双向 循环 神经 网 络 结构 示意 图 


深层 循环 神经 网 络 (deepRNN) 是 循环 神经 网 络 的 另外 一 种 变种 。 为 了 增强 模型 的 表达 

能 力 ， 可 以 将 每 一 个 时 刻 上 的 循环 体重 复 多 次 。 图 8-8 给 出 了 深层 循环 神经 网 络 的 结构 示 

意图 。 从 图 8-8 中 可 以 看 到 ， 相 比 8.1 节 中 介绍 的 循环 神经 网 络 ， 深 层 循环 神经 网 络 在 每 

一 个 时 刻 上 将 循环 体 结构 复制 了 多 次 。 和 卷 积 神经 网 络 类 似 ， 每 一 层 的 循环 体 中 参数 是 一 

致 的 ， 而 不 同 层 中 的 参数 可 以 不 同 。 为 了 更 好 地 支持 深层 循环 神经 网 络 ，TensorF1Low 中 

人 向 传播 过 程 。 以 下 代码 展示 如 休 
这 个 类 。 



































# 定义 个 一 个 基本 的 LSTM 结 构 作 为 循环 体 的 基础 结构 。 深 层 循 环 神经 网 络 也 支持 使 
用 其 他 的 循环 


# 体 结 。 


lstm = rnn_cell.BasicLSTMCell(lstm size) 








图 8-8 深层 循环 神经 网 络 结构 示意 图 











# 通过 MultiRNNCell 类 实现 深层 循环 神经 网 络 中 每 一 个 时 刻 的 前 向 传播 过 程 。 其 
中 


# number_of_layers 表 示 了 有 多 少 层 ， 也 就 是 图 8-16 中 从 xt 到 ht 需要 经 过 多 少 
个 LSTM 结 构 。 


stacked_ lstm = rnn_cell.MultiRNNCell([lstm|] * number_of_layer 


# 和 经 典 的 循环 神经 网 络 一样 ， 可 以 通过 zero_state 函 数 来 获取 初始 状态 。 


state = stacked lstm.zero_state(batch size, tf.float32) 


# 和 8.2 节 中 给 出 的 代码 一 样 ， 计 算 每 一 时 刻 的 前 向 传播 结果 。 

for i in range(len(num_ steps)): 

if i> 0: tf.get variable scope().reuse variables() 
stacked_ lstm output, state = stacked lstm(current_ input, stat 
final output = fully connected(stacked_ lstm output) 


loss += calc loss(final output, expected output) 








从 以 上 代码 可 以 看 到 ， 在 TensorFlow 中 只 需要 在 BasicLSTMCe1l11 的 基础 上 再 封装 一 层 
MultiRNNCell1 就 可 以 非常 容易 地 实现 深层 循环 神经 网 络 了 。 


8.3.2 循环 神经 网 络 的 dropout 


6.4 节 介绍 过 在 卷 积 神经 网 络 上 使 用 dropout 的 方法 。 通 过 dropout， 可 以 让 卷 积 神经 
网 络 更 加 健壮 Crobust) 和 -。 类 似 的 ， 在 循环 神经 网 络 中 使 用 dropout 也 有 同样 的 功 
能 。 而 且 ， 类 似 卷 积 神经 网 络 只 在 最 后 的 全 连接 层 中 使 用 dropout， 循 环 神经 网 络 一 般 
只 在 不 同 层 循环 体 结构 之 间 使 用 dropout， 而 不 在 同一 层 的 循环 体 结构 之 间 使 用 。 也 就 
是 说 从 时 刻 t -1 传递 到 时 刻 t 时 ， 循 环 神经 网 络 不 会 进行 状态 的 dropout; 而 在 同一 个 
时 刻 t 中 ， 不 同 层 循环 体 之 间 会 使 用 dropout。 


如 图 8-9 展 示 了 循环 神经 网 络 使 用 dropout 的 示意 图 。 假 设 要 从 t -2 时 刻 的 输入 x , ., 传 
递 到 t +1 时 刻 的 输出 y . ,,，， 那 么 x ，， 将 首先 传 入 第 一 层 循环 体 结构 ， 这 个 过 程 会 使 用 
dropout。 但 是 从 t -2 时 刻 的 第 一 层 循 环 体 结构 传递 到 第 一 层 的 t -1、t 、t +1 时 刻 
不 会 使 用 dropout。 在 t +14 时 刻 的 第 一 层 循环 体 结构 传递 到 同一 时 刻 内 更 高 层 的 循环 体 
结构 时 ， 会 再 次 使 用 dropout。 
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图 8-9 ”深层 循环 神经 网 络 使 用 dropout 示 意图 









































(图 中 实 线 箭头 表示 不 使 用 dropout， 虚 线 箭 头 表示 使 用 dropout ) 














在 Tensorflow 中 ， 使 用 tf.nn.rnn_cell.Dropoutwrapper 类 可 以 很 容易 实现 
dropout 功 能 。 以 下 代码 展示 了 如 何在 TensorFlow 中 实现 带 dropout 的 循环 神经 网 


-Ho 





# 定义 LSTM 结 构 。 


lstm = rnn_cell.BasicLSTMCell(lstm size) 


# ”使 用 Dropoutwrapper 类 来 实现 dropout 功 能 。 该 类 通过 两 个 参数 来 控制 
dropout 的 概率 ， 


# 一 个 参数 为 input_keep_prob， 它 可 以 用 来 控制 输入 的 dropout 概 率 22-; 另 
一 个 为 


# Output_keep_prob， 它 可 以 用 来 控制 输出 的 dropout 概 率 。 


dropout_lstm = tf.nn.rnn_cell.Dropoutwrapper(lstm, output_kee 


# 在 使 用 了 dropout 的 基础 上 定义 


stacked_ lstm = rnn_cell.MultiRNNCell([dropout lstm] * number 


# 和 8.3.1 小 节 中 深层 循环 网 络 样 例 程序 类 似 ， 运 行 前 向 传播 过 程 。 


8.4 循环 神经 网 络 样 例 应 用 


在 以 上 几 节 中 已经 介绍 了 不 同 循环 神经 网 络 的 网 络 结构 ， 并 给 出 了 具体 的 TensorFlow 程 
序 来 实现 这 些 往 环 神经 网 络 的 前 向 传播 过 程 。 这 一 节 将 给 出 两 个 具体 的 循环 神经 网 络 应 用 
样 例 一 自然 语言 建 模 和 时 序 预测 。 在 8.4.1 小 节 中 将 简单 介绍 什么 是 自然 语言 建 模 ， 并 
通过 TensorFlow 实 现在 Penn TreeBank (PTB) 数据 集 上 的 自然 语言 模型 。 在 8.4.2 
小 节 中 将 简单 介绍 TensorFlow 的 高 层 封装 工具 TFLearn， 并 通过 TFLearn 实 现 对 函数 
sin x 取信 的 预测 。 


8.4.1 目 然 语言 建 模 


简单 地 说 ， 语 言 模型 的 目的 是 为 了 计算 一 个 句子 的 出 现 概率 。 在 这 里 把 句子 看 成 是 单词 的 
序列 ， 于 是 语言 模型 需要 计算 的 就 是 p (wm ,WwW ，，w 。 .wm ) 。 利 用 语言 模型 ， 可 
以 确定 哪个 单词 序列 出 现 的 可 能 性 更 大 ， 或 者 给 定 若 干 个 单词 ， 可 以 预测 下 一 个 最 可 能 

现 的 词语 。 举 个 音字 转换 的 例子 ， 假 设 输 入 的 拼音 串 为 “xianzaiduna”， 它 的 输出 可 以 
是 “西安 在 去 哪 “， 也 可 以 是 “现在 去 哪 “。 根 据 语言 常识 可 以 知道 ， 转 换 成 第 二 个 的 概率 
更 局 。 语言 模型 就 可 以 得 到 后 者 的 概率 大 于 前 者 ， 因 此 在 大 多 数 情 况 下 转换 成 后 者 比较 合 
理 。 

































































那么 如 何 计算 一 个 句子 的 概率 呢 ? 首 先 一 个 句子 可 被 看 成 是 一 个 单词 序列 : 


S =(WI S34 M5, | 


其 中 m 为 句子 的 长 度 。 那 么 ， 它 的 概率 可 以 表示 为 : 


SPW ,3, ,Ws Wh 
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要 计算 一 个 句子 出 现 的 概率 ， 就 需要 知道 上 面 公式 中 等 式 右边 中 每 一 项 的 取 值 。 等 式 右边 
的 每 一 项 都 是 语言 模型 中 的 一 个 参数 。 一 般 来 说 ， 任 何 一 门 语言 的 词汇 量 都 很 大 ， 词 汇 的 
组 合 更 不 计 其 数 。 为 了 估计 这 些 参 数 的 取 值 ， 常 见 的 方法 有 n-gram 方法 、 决 策 树 、 最 大 
焙 模 型 、 条 件 随 机 场 、 神 经 网 络 语言 模型 ， 等 等 。 本 小 节 将 先 以 其 中 最 简单 的 n-gram 模 
型 来 介绍 语言 模型 问题 以 及 评价 模型 优 劣 的 标准 。n-gram 横 型 有 一 个 有 限 历 史 假设 : 当 
前 单词 的 出 现 概率 仅仅 与 前 面 的 n -1 个 单词 相关 。 因 此 以 上 公式 可 以 近似 为 : 


由 


网 Pig's Wi 


n-gram 模型 里 的 n 指 的 是 当前 单词 依赖 它 前 面 的 单词 的 个 数 。 通 常 m 可 以 取 1、2、3， 
这 时 n-gram 模 型 分 别称 为 unigram、bigram 和 trigram 语 言 模 型 。n-gram 模 型 中 需 


要 估计 的 参数 为 条 件 概率 pwi A 1 1 ) 。 假 设 某 种 语 


言 的 单词 表 大 小 为 k ， 那 么 n-gram 模型 需要 估计 的 不 同 参数 数量 为 k”。 当 n 越 大 时 ， 
n-gram 模型 理论 上 越 准 确 ， 但 也 越 复杂 ， 需 要 的 计算 量 和 训练 语 料 数 据 量 也 就 越 大 。 
此 ， 最 常用 的 是 bijgram， 其 次 是 unigram 和 trigram。n 取 >4 的 情况 非常 少 。n-gram 
模型 的 参数 一 般 采 用 最 大 似 然 估计 (maximum 1likelihood estimation，MLE) 的 
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C\ Wintls'' sh 2h 
其 中 CX) ”表示 单词 序列 X 在 训练 语 料 中 出 现 的 次 数 。 训 练 语 料 的 规模 越 大 ， 参 数 估 计 
的 结果 越 可 靠 。 但 即使 训练 数据 的 规模 非常 大 时 ， 还 是 会 有 很 多 单词 序列 在 训练 语 料 中 没 
有 出 现 过 ， 这 就 会 导致 很 多 参数 为 0。 举 个 例子 来 说 ，IBM 使 用 了 366M 英 语 语 料 训练 
trigram， 发 现 14.7% 的 trigram 和 2.2% 的 bigram 在 训练 中 没有 出 现 。 为 了 避免 因为 
乘 以 9 而 导致 整个 概率 为 90， 使 用 最 大 似 然 估 计 方 法 时 都 需要 加 入 平滑 避免 参数 取 值 为 0。 
使 用 n-gram 建立 语言 模型 的 细节 不 再 袭 述 ， 感 兴趣 的 读者 可 以 看 考 书籍 Tnformation 
Retrieval: Implementing and Evaluating Search Engines ‘2-。 


语言 模型 效果 好 坏 的 常用 评价 指标 是 复杂 度 ‘(perplexity) 。 简 单 来 说 ，perplexity 
值 刻画 的 就 是 通过 某 一 个 语言 模型 估计 的 一 句 话 出 现 的 概率 。 比 如 当 已 经 知道 (w ，,w ， 
,ww ,Wm ) 这 人 句 话 出 现在 语料库 之 中 ， 那 么 通过 语言 模型 计算 得 到 的 这 句 话 的 概率 越 
高 越 好 ， 也 就 是 perplexity 值 越 小 越 好 。 计 算 perplexity 值 的 公式 如 下 : 
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杂 度 perplexity 表 示 的 概念 其 实 是 平均 分 支 系数 Caverage branch factor) ， 
即 模型 预测 下 一 个 词 时 的 平均 可 选择 数量 。 例 如 ， 考 虑 一 个 由 9~9 这 10 个 数字 随机 组 成 的 
长 度 为 m 的 序列 。 由 于 这 10 个 数字 出 现 的 概率 是 随机 的 ， 所 以 每 个 数字 出 现 的 概率 是 


























一 -一 。 因 此 ， 在 任意 时 刻 ， 模 型 都 有 10 个 等 概率 的 候选 答案 可 以 选择 ， 于 是 

















perplexity 就 是 10 〈 有 10 个 合理 的 答案 ) 。perplexity 的 计算 过 程 如 下 : 


ni 


Perplexin(S)= 
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因此 ， 如 果 一 个 语言 模型 的 perplexity 是 89， 就 表示 ， 平 均 情况 下 ， 模 型 预测 下 一 








词 时 ， 有 89 个 词 等 可 能 地 可 以 作为 下 一 个 词 的 合理 选择 。 另 一 种 常用 的 perplexity 表 


达 形 式 如 下 : 
A plWi Ws Wa .Wil) 
i 








log( perplexity(S 








相 比 乘积 开 根 号 的 方式 ， 人 以 加 速 计算 ， 这 也 有 效 地 避免 了 概率 为 9 时 导 
致 整个 计算 结果 为 6 的 问题 


除了 n-gram 模 型 ， 循 环 神经 网 络 也 可 以 用 来 对 自然 语言 建 模 。 考 虑 如 图 8-10 所 示 的 循环 
神经 网 络 ， 每 个 时 刻 的 输入 为 一 个 句子 中 的 单词 ， 而 每 个 时 刻 的 输出 为 一 个 概率 分 布 ， 表 
示人 句子 中 下 一 个 位 置 为 不 同 单词 的 概率 。 通 过 这 种 方式 ， 对 于 给 定 的 句子 ， 就 可 以 通过 循 


环 神经 网 络 的 前 向 传播 过 程 计算 出 pOWwi Wi Wi_1) 。 比 如 在 图 8- 


10 中 ， 在 第 一 个 时 刻 输入 的 单词 为 “大 海 “"， 而 输出 为 p (x1 “大海 “)”。 也 就 是 在 知道 第 
一 个 词 为 “大 海 “ 后 ， 其 他 不 同 单词 出 现在 下 一 个 位 置 的 概率 。 比 如 从 图 8-19 中 可 以 看 
出 ，p “的 “| “大 海 “) =9.8 ， 也 就 是 说 “大 海 “ 之 后 的 单词 为 “的 ”的 概率 为 0 .8。 


类 似 的 ， 通 过 循环 神经 网 络 可 以 求 得 概率 p(x| “大海 “的 7) px|“ 大 海 “， 
4 的， 4 闻 色 “) p Cx| “大 海 “， “的 ^ ， 4 靖 色 “ WA=! 是 ”) 地 十 岂可 以 求 得 整 
个 句 科大 海 的 颜色 是 蓝 “的 概率 ， 从 而 计算 出 这 句 话 的 perplexity 值 。 在 本 小 节 后 
面 的 篇 幅 中 将 给 出 上 其 体 的 TensorFlow 代 码 来 实现 通过 循环 神经 网 络 对 自然 语言 建 模 。 
























































图 8-10 ”使 用 循环 神经 网 络 实现 自然 语言 建 模 示意 图 
PTB 文 本 数据 集 介绍 


PTB (Penn Treebank Dataset) 文本 数据 集 是 语言 模型 学 习 中 目前 最 广泛 使 用 的 数 
据 集 。 本 小 节 将 在 PTB 数 据 集 上 使 用 循环 神经 网 络 实现 语言 模型 。 在 给 出 语言 模型 代码 之 
前 将 先 简单 介绍 PTB 数 据 集 的 格式 以 及 TensorFLow 对 于 PTB 数 据 集 的 支持 。 首 先 ， 需 要 
下 载 来 源 于 Tomas Mikolov 网 站 上 的 PTB 数 据 。 数 据 的 下 载 地 址 为 : 





























http://www.fit.vutbr.cz/~imikolov/rnnlm/simple-examples.tgz 











将 下 载 下 来 的 文件 解压 之 后 可 以 得 到 如 下 文件 夹 列表 


1-train/ 
2-nbest-rescore/ 
3-combination/ 
4-data-generation/ 
5-one-iter/ 
6-recovery-during-training/ 
7-dynamic-evaluation/ 
8-direct/ 
9-char-based-1m/ 
data/ 

models/ 


rnnJlm-0.2b/ 





本 书 只 需要 关心 data 文 件 夹 下 的 数据 ， 对 于 其 他 文件 不 再 一 一 介绍 ， 感 兴趣 的 读者 可 以 
自行 参考 README 文 件 。 在 data 文 件 夹 下 总 共有 7 个 文件 ， 但 本 书 中 将 只 会 用 到 以 下 三 个 











全: 


ptb. test. txt # 测试 集 数 据 文件 
ptb. train. txt # 训练 集 数 据 文件 
ptb.valid. txt # 验证 集 数 据 文件 























这 三 个 数据 文件 中 的 数据 已 经 经 过 了 预 处 理 ， 包 含 了 10000 个 不 同 的 词语 和 语句 结束 标 











记 符 《在 文 本 中 就 是 换行 符 》 以 及 标记 稀有 词语 的 特殊 
9 一行: 


大 品 


符号 <Unk>。 





下 面 展示 了 训练 数据 


mr. <unk> is chairman of <unk> n.v. the dutch publishing grou 














eo a TensorFlow 提 供 了 两 个 函数 来 帮助 实现 数据 的 预 处 
EA。 首先 ，TensorFlow 提 供 了 ptb_raw_data 函 数 来 读 取 PTB 的 原始 数据 ， 并 将 原始 数 
据 中 的 单 记 转化 汶 病 汉 2， 以 下 代码 展示 了 如 何 使 用 这 个 函数 。 












































from tensorflow.models.rnn.ptb Import reader 


# 存放 原始 数据 的 路 径 。 

DATA_PATH = "/path/to/ptb/data" 

train_ data，Vvalid data, test data, _ = reader.ptb_raw_ data(DA 
# 读 取 数据 原始 数据 。 

print len(train data) 


print train_datal:100] 


运行 以 上 程序 可 以 得 到 输出 : 
929589 


[9970, 9971, 9972, 9974, 9975, 9976, 9980, 9981, 9982, 9983, 








从 输出 中 可 以 看 出 训练 数据 中 总 共 包 含 了 929589 个 单词 ， 而 这 些 单词 被 组 成 了 一 个 非常 
长 的 序列 。 这 个 序列 通过 特殊 的 标识 符 给 出 了 每 句 话 结束 的 位 置 。 在 这 个 数据 集中 ， 句 子 
结束 的 标识 符 ID 为 2。 


在 8 .1 节 中 介绍 过 ， 虽 然 循 环 神经 网 络 可 以 接受 任意 长 度 的 序列 ， 但 是 在 训练 时 需要 将 序 
列 按照 某 个 固定 的 长 度 来 截断 。 为 了 实现 截断 并 将 数据 组 织 成 patch，TensorFlow 提 供 
了 ptb_iterator 函 数 。 以 下 代码 展示 了 如 何 使 用 ptb_iterator 函 数 。 















































from tensorflow.models.rnn.ptb Import reader 


# 类 似 地 读 取 数据 原始 数据 。 
DATA_PATH = "/path/to/ptb/data" 


train_ data，Vvalid data, test data, _ = reader.ptb_raw data(DA 


# 将 训练 数据 组 织 成 Datch 大 小 为 4、 截 断 长 度 为 5 的 数据 组 。 

result = reader.ptb_iterator(train_data, 4, 5) 

# 读 取 第 一 个 batch 中 的 数据 ， 其 中 包括 每 个 时 刻 的 输入 和 对 应 的 正确 输出 。 
x, y = result.next() 

Pent eX 


oneal ne syR RS 


运行 以 上 程序 可 以 得 到 输出 : 
Xx: [[9970 9971 9972 9974 9975] 
[ 332 7147 328 1452 8595] 
[1969 0 98 89 2254] 
We yy 
y: [[9971 9972 9974 9975 9976] 
[7147 328 1452 8595 59] 
[ 90 98 89 2254 0] 


[ 3 2 14 24 198]] 


图 8-11 展 示 了 ptb_iterator 函 数 实现 的 功能 。ptb_jiterator 函 数 会 将 一 个 长 序列 划 
分 为 batch_size 段 ， 其 中 patch_size 为 一 个 patch 的 大 小 。 每 次 调用 
ptb_iterator 时 ， 该 函数 会 从 每 一 段 中 读 取 长 度 为 num_step 的 子 序列 ， 其 中 
num_step 为 截断 的 长 度 。 从 上 面 代码 的 输出 可 以 看 到 ， 在 第 一 个 batch 的 第 一 行 中 ， 前 
面 5 个 单词 的 ID 和 整个 训练 数据 中 前 5 个 单词 的 TD 是 对 应 的 。ptb_iterator 在 生成 
batch 时 可 以 会 自动 生成 每 个 patch 对 应 的 正确 答案 ， 这 个 对 于 每 一 个 单词 ， 它 对 应 的 正 
确 答案 就 是 该 单词 的 后 面 一 个 单词 。 
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按 长 度 截断 的 一 个 batch 














图 8-11 将 一 个 长 序列 分 成 patch 并 截断 的 操作 示意 区 
使 用 循环 神经 网 络 实现 语言 模型 


在 介绍 了 语言 模型 的 理论 和 使 用 到 的 数据 集 之 后 ， 下 面 给 出 了 一 个 完成 的 TensorFlow 样 
例 程 序 来 通过 循环 神经 网 络 实现 语言 模型 。 



































# -*- Coding: utf-8 -*- 


import numpy as np 


import tensorflow as tf 


from tensorflow.models.rnn.ptb import reader 


DATA_PATH = "/path/to/ptb/data" # 数据 存放 的 路 径 。 


HIDDEN_ SIZE = 200 # 隐藏 层 规模 。 


NUM_LAYERS = 2 # 深层 循环 神经 网 络 中 LSTM 
结构 的 层 数 。 

VOCAB SIZE = 10000 # 词典 规模 ， 加 上 语句 结束 标 
识 符 和 稀有 


# 单词 标识 符 总 共 一 万 个 单词 。 


LEARNING RATE = 1.0 # 学 习 速 率 。 
TRAIN_BATCH_SIZE = 20 # 训练 数据 batch 的 大 小 。 
TRAIN NUM_ STEP = 35 # 训练 数据 截断 长 度 。 


# 在 测试 时 不 需要 使 用 截断 ， 所 以 可 以 将 测试 数据 看 成 一 个 超 长 的 序列 。 


EVAL BATCH SIZE = 1 # 测试 数据 batch 的 大 小 。 
EVAL NUM STEP = 1 # 测试 数据 截断 长 度 。 
NUM_EPOCH = 2 # 使 用 训练 数据 的 轮 数 。 
KEEP_PROB = 0.5 # 节点 不 被 dropout 的 概 
MAX_ GRAD NORM = 5 # 用 于 控制 梯度 膨胀 的 参数 。 


# 通过 一 个 PTBMode1 类 来 描述 模型 ， 这 样 方便 维护 循环 神经 网 络 中 的 状态 。 
class PTBModel(object): 
def _ init (self, is_ training, batch_ size, num_steps): 
# 记录 使 用 的 batch 大 小 和 截断 长 度 。 
self.batch size = batch size 


self.num_ steps = num_steps 


# 定义 输入 层 。 可 以 看 到 输入 层 的 维度 为 batch_size x num_steps， 这 
和 


# ptb_iterator 函 数 得 出 的 训练 数据 batch 是 一致 的 。 


self.input data = tf.placeholder(tf.int32, [batch size, n 


# 定义 预期 输出 。 它 的 维度 和 ptb_iterator 函 数 输出 的 正确 答案 维度 也 是 


self.targets = tf.placeholder(tf.int32, [batch_size, num_ 


# 定义 使 用 LSTM 结 构 为 循环 体 结构 且 使 用 dropout 的 深层 循环 神经 网 络 。 
lstm cell = tf.nn.rnn_cell.BasicLSTMCell(HIDDEN_ SIZE) 
if is_ training 
lstm cell = tf.nn.rnn_cell.Dropoutwrapper( 
lstm cell, output_ keep_prob=KEEP_PROB) 


cell = tf.nn.rnn_cell.MultiRNNCell([lstm cell] * NUM_LAYE 


# 初始 化 最 初 的 状态 ， 也 就 是 全 零 的 向 量 。 
self.initial state = cell.zero state(batch_ size, tf.float 


# 将 单词 ID 转 换 成 为 单词 向 量 。 因 为 总 共有 VOCAB_SIZE 个 单词 ， 每 个 单词 
向 量 的 维度 





# 为 HIDDEN_SIZE， 所 以 embedding 人 参数 的 维度 为 
VOCAB_SIZE x HIDDEN_ SIZE 9 。 


embedding = tf.get variable("embedding", [VOCAB SIZE, HID 


# 将 原本 batch_size x num_steps 个 单词 ID 转 化 为 单词 向 量 ， 转 化 后 的 
输入 层 维度 


# 为 batch_size x num_steps x HIDDEN_SIZE。 


inputs = tf.nn.embedding lookup(embedding, self.input_dat 


# 只 在 训练 时 使 用 dropout。 


if is_ training: inputs = tf.nn.dropout(inputs, KEEP_PROB) 


# 定义 输出 列表 。 在 这 里 先 将 不 同时 刻 LSTM 结 构 的 输出 收集 起 来 ， 再 通过 一 
个 全 连接 


# 层 得 到 最 终 的 输出 。 
outputs = [] 
# state 存储 不 同 batch 中 LSTM 的 状态 ， 将 其 初始 化 为 0。 
state = self.initial state 
with tf.variable scope( "RNN"): 
for time_step in range(num_steps): 
if time_step > 0: tf.get variable scope().reuse v 
# 从 输入 数据 中 获取 当前 时 刻 获 的 输入 并 传 入 LSTM 结 构 。 
cell output, state = cell(inputs[:, time_ step, :|] 
# 将 当前 输出 加 入 输出 队列 。 


outputs.append(cell output) 


# 把 输出 队列 展开 成 [batch，hidden sizex*num steps] 的 形状 ， 然 后 再 
# reshape 成 [batch*numsteps，hidden _ size] 的 形状 。 


output = tf.reshape(tf.concat(1，outputs)，[-1，HIDDEN_SI 


# 将 从 LSTM 中 得 到 的 输出 再 经 过 一 个 全 链接 层 得 到 最 后 的 预测 结果 ， 最 终 的 
预测 结果 在 


 、## 每 一 个 时 刻 上 都 是 一 个 长 度 为 VOCAB_SIZE 的 数组 ， 经 过 sof tmax 层 之 后 
过 下 一 和 


# 位 置 是 不 同 单词 的 概率 。 


weight = tf.get variable("weight", [HIDDEN_ SIZE, VOCAB_ SI 





bias = tf.get variable("bias", [VOCAB_ SIZE|) 


logits = tf.matmul(output, weight) + bias 





# ”定义 交叉 炳 损失 函数 。TensorFlow 提 供 了 
seduence_1oss_by_examp1e 函 数 来 计 


# 算 一 个 序列 的 交叉 炉 的 和 。 


loss = tf.nn.seq2seqd.sequence_ loss_by_example( 


车 [logits], # 预测 的 结 
[tf.reshape(self.targets, [-1])], # 期 待 的 正确 答 

案 ， 这 里 将 
# [batch_ 
# 二 维 数 


组 压缩 成 一 维 数组 。 
# 损失 的 权重 。 在 这 里 所 有 的 权重 都 为 1， 也 就 是 说 不 同 bpatch 和 不 同时 





刻 
# 的 重要 程度 是 一 样 的 。 


[tf,.ones([batch_size * num steps], dtype=tf .float32)] 


# 计算 得 到 每 个 batch 的 平均 损失 。 
self.cost = tf.reduce sum(loss) / batch_ size 


self.final state = state 


# 只 在 训练 模型 时 定义 反 向 传播 操作 。 


if not is training: return 


trainable variables = tf.trainable variables() 


# 通过 clLip_by global_norm 函 数控 制 梯度 的 大 小 ， 避 免 梯度 膨胀 的 问 


grads, _ = tf.clip_ by_global norm( 


tf.gradients(self.cost, trainable variables), MAX_GRA 


# 定义 优化 方法 。 

optimizer = tf.train.GradientDescentOptimizer (LEARNING RA 
# 定义 训练 步 又 。 

self.train op = optimizer.apply_gradients( 


zip(grads, trainable variables)) 


# ”使 用 给 定 的 模型 model 在 数据 data 上 运行 train_op 并 返回 在 全 部 数据 上 的 
perplexity 值 。 


def run_epoch(session, model, data, train_ op, output_ lo0og): 
# 计算 perplexity 的 辅助 变量 。 

total_ costs = 0.0 

iters = 0 

state = session.run(model.initial state) 

# 使 用 当前 数据 训练 或 者 测试 模型 。 


for step, (x, y) in enumerate( 


reader .ptb_iterator(data, model.batch size, model.num ste 


# 在 当前 batch 上 运行 train_op 并 计算 损失 值 。 交 义 炳 损失 函数 计算 的 就 是 


下 一 个 单 
# 词 为 给 定单 词 的 概率 。 
cost, state, _ = session.run( 
[model.cost, model.final state, train opl], 
{model.input_ data: x, model.targets: y, 
model.initial state: state}) 
ee # 将 不 同时 刻 、 不 同 batch 的 概率 加 起 来 就 可 以 得 到 第 二 个 perplexity 公 式 
二 


# 边 的 部 分 ， 再 将 这 个 和 做 指数 运算 就 可 以 得 到 perplexity 值 。 
total costs += cost 


iters += model.num_ steps 


# 只 有 在 训练 时 输出 日 志 。 
if output_ log and step % 100 == 
print("After %d steps, perplexity is %.3f" % ( 


step, np.exp(total costs / iters))) 


# 返回 给 定 模型 在 给 定数 据 上 的 perplexity 值 。 


return np.exp(total costs / iters) 


def main(_): 
# 获取 原始 数据 。 


train_ data，Vvalid data, test data, _ = reader.ptb_raw_ data(DA 


# 定义 初始 化 函数 。 
initializer = tf.random uniform initializer(-0.05, 0.05) 
# 定义 训练 用 的 循环 神经 网 络 模 型 。 
with tf.variable scope("language model", 
reuse=None, initializer=initializer 


train model = PTBModel(True, TRAIN_ BATCH_SIZE, TRAIN_ NUM_ 


# 定义 评测 用 的 循环 神经 网 络 模型 。 
with tf.variable_ scope("language model", 
reuse=True, initializer=initializer 


eval model = PTBModel(False, EVAL_ BATCH_SIZE, EVAL_NUM_ ST 


with tf.Session() as session: 


tf.initialize all variables().run() 


# 使 用 训练 数据 训练 模型 。 

for i in range(NUM_ EPOCH): 
print("In iteration: %d" % (i + 1)) 
# 在 所 有 训练 数据 上 训练 循环 神经 网 络 模 型 。 
run_epoch(session, train model, 


train_ data, train model.train op, True) 


# 使 用 验证 数据 评测 模型 效果 。 


Valid perplexity = run_epoch( 
session, eval model, valid data，tf.no_ op()，F 
print("Epoch: %d Validation Perplexity: %.3f" % (人 


i + 1, valid perplexity)) 


# 最 后 使 用 测试 数据 测试 模型 效果 。 
test_perplexity = run_epoch( 
session, eval model, test data, tf.no_ op(), False) 


print("Test Perplexity: %.3f" % test perplexity) 


if name == " main _": 


tf.app.run() 





运行 以 上 程序 可 以 得 到 类 似 如 下 的 输出 99-， 


In iteration: 1 

After © steps, perplexity is 10003.783 
After 100 steps, perplexity is 1404.742 
After 200 steps, perplexity is 1061.458 
After 300 steps, perplexity is 891.044 


After 400 steps, perplexity is 782.037 


After 1100 steps, perplexity is 228.711 


After 1200 steps, perplexity is 226.093 


After 1300 steps, perplexity is 223 .214 
Epoch: 2 Validation Perplexity: 183.443 


Test Perplexity: 179.420 


从 输出 可 以 看 出 ， 在 迭代 开始 时 perplexity 值 为 .0003.783， 这 基本 相当 于 从 一 万 个 

单词 中 随机 选择 下 一 个 单词 。 而 在 训练 结束 后 ， 在 训练 数据 上 的 perplexity 值 降低 到 了 

179.420。 这 表明 通过 训练 过 程 ， 将 选择 下 一 个 单词 的 范围 从 一 万 个 减 小 到 了 大 约 180 

0 
降 到 更 低 。 


8.4.2 时 间 序 列 预 测 


本 小 节 将 介绍 如 何 利用 循环 神经 网 络 来 预测 正弦 〈sin) 函数 甸 -， 几 8-12 给 出 了 sin 函 
数 的 函数 图 像 。 在 给 出 具体 的 TensorFLow 代 码 之 前 ， 本 小 节 将 先 介 绍 另外 一 个 对 
TensorFlow 的 高 层 封装 一 TFLearn 02-。 和 第 6 章 中 介绍 的 TensorFlow-Slim 类 似 ， 
通过 使 用 TFLearn 可 以 让 TensorFlow 代 码 效 率 进一步 提高 。 
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图 8-12 sin 函数 曲线 











使 用 TFLearn 自 定义 模型 


TensorFlow 的 另外 一 个 高 层 封装 TFLearn 〈 集 成 在 tf .contrib.1Learn 里 ) 对 训练 
TensorFLow 横 型 进行 了 一 些 封 装 ， 使 其 更 便于 使 用 。 本 小 节 将 通过 iris 数 据 集 简单 介 
绍 如 何 使 用 TFLearn 实 现 分 类 问题 。iris 数 据 集 需 要 通过 4 个 特征 (feature) 来 分 辨 
三 种 类 型 的 植物 。iris 数 据 集 中 总 共 包 含 了 150 个 样本 钳 一 。 以 下 程序 展示 了 如 何 通过 
TFLearn 快 速 的 解决 iris 分 类 问题 。 























# -*- Coding: utf-8 -*- 





# 为 了 方便 数据 处 理 ， 本 程序 使 用 了 sklearn 工 具 包 ， 关 于 这 个 工具 包 更 多 的 信息 
可 以 参考 


# http://scikit-learn.org/。 

from sklearn import cross validation 
from sklearn import datasets 

from sklearn import metrics 


import tensorflow as tf 


# 导入 TFLearn。 


learn = tf,contrib. learn 


# ” 自 定义 模型 ， 对 于 给 定 的 输入 数据 (features) 以 及 其 对 应 的 正确 答案 
(target) ， 返 回 在 这 


# 些 和 输入 上 的 预测 值 、 损 失 值 以 及 训练 步骤 。 
def my _model(features, target): 
# 将 预测 的 目标 转换 为 one-hot 编 码 的 形式 ， 因 为 共有 三 个 类 别 ， 所 以 向 量 长 度 为 


3。 经 过 转 
# 化 后 ， 第 一 个 类 别 表示 为 (1,0,0)， 第 二 个 为 (0,1,0)， 第 三 个 为 (0, 9,1)。 


target = tf.one hot(target, 3, 1, 0) 


# 定义 模型 以 及 其 在 给 定数 据 上 的 损失 函数 。TFLearn 通 过 


logistic_regression 封 装 了 


数 


器 


# 一 个 单 层 全 连接 神经 网 络 。 


logits, loss = learn.models.1logistic regression(features, tar 


# 创建 模型 的 优化 器 ， 并 得 到 优化 步骤 。 


train op = tf.contrib. layers.optimize loss( 


loss, # 损失 函 

tf.contrib.framework.get_global step(), # 获取 训练 步 数 
并 在 训练 时 更 新 

optimizer='Adagrad', # 定义 优化 

learning_rate=0.1) # 定义 学 习 


率 
2 


# 返回 在 给 定数 据 上 的 预测 结果 、 损 失 值 以 及 优化 步 又。 


return tf.arg max(logits, 1), loss, train_op 


# 加 载 iris 数 据 集 ， 并 划分 为 训练 集合 和 测试 集合 。 
iris = datasets.1oad iris() 
x_train, x_test, y_ train, y_test = cross validation.train_ tes 


iris.data, iris.target, test size=0.2, random_ state=0) 


# 对 自 定义 的 模型 进行 封装 。 


classifier = learn.Estimator(model fn=my_model) 


# 使 用 封装 好 的 模型 和 训练 数据 执行 100 轮 欠 代 。 


classifier.fit(x_train, y_train, steps=100) 


# 使 用 训练 好 的 模型 进行 结果 预测 。 


y_predicted = classifier.predict(x_test) 


# 计算 模型 的 准确 度 。 
Score = metrics.accuracy_ scorel(y_ test, y_predicted) 


print('Accuracy: %.2f%%' % (Score * 100)) 


运行 以 上 程序 可 以 得 到 输出 : 


Accuracy: 90.00% 





通过 以 上 程序 可 以 看 出 TFLearn 既 封装 了 一 些 常用 的 神经 网 络 结构 ， 又 省 去 了 模型 训练 








的 部 分 ， 这 让 TensorFlow 的 程序 可 以 变 得 更 加 简短 。 
预测 正弦 函数 


通过 TFLearn， 下 面 的 篇 幅 将 给 出 具体 的 TensorFlow 程 序 来 实现 预测 正弦 函数 sin。 








为 标准 的 循环 神经 网 络 模 型 预测 的 是 离散 的 数值 ， 所 以 在 程序 中 需要 将 连续 的 Sin 函数 








曲 





线 离散 化 。 所 谓 离散 化 就 是 在 一 个 给 定 的 区 间 [06， MAX] 内 ， 通 过 有 限 个 采样 点 模拟 一 个 























了 








# -*- COoding: utf-8 -*- 


连续 的 曲线 。 比 如 在 以 下 程序 中 每 隔 SAMPLE_ITERVAL 对 sin 函 数 进行 一 次 采样 ， 采 样 
得 到 的 序列 就 是 sin 函 数 离散 化 之 后 的 结果 。 以 下 程序 为 预测 离散 化 之 后 的 sin 函数 。 





import numpy as np 


Import tensorflow as tf 


# 加 载 mnatplot1lib 工 具 包 ， 使 用 该 工具 可 以 对 预测 的 sin 函数 曲线 进行 绘图 。 


import matplotlib as mpl 


mpl.use('Agg') 


from matplotlib import pyplot as plt 


lJearn = tf.contrib.1learn 


HIDDEN_SIZE = 30 


扩 的 个 数 。 


NUM_LAYERS = 2 # LSTM 的 层 数 。 


TIMESTEPS = 10 


截断 长 度 。 


要 
[e) 


TRAINING_STEPS = 10000 


BATCH_SIZE = 32 


TRAINING EXAMPLES = 10000 


TESTING_ EXAMPLES = 1000 


SAMPLE_GAP = 0.01 


def generate_datal( seq): 


# LSTM 中 隐藏 节 


# 循环 神经 网 络 的 


# 训练 轮 数 。 


# _ batch 大 小 。 


# 训练 数据 个 数 。 


# 测试 数据 个 


# 采样 间隔 。 


X 


[] 
= 


# 序列 的 第 i 项 和 后 面 的 TIMESTEPS-1 项 合 在 一 起 作为 输入 ; 第 i + TIMESTEPS 
项 作为 输 


# 出 。 即 用 sin 函数 前 面 的 TIMESTEPS 个 点 的 信息 ， 预 测 第 半 + TIMESTEPS 个 点 
的 函数 值 。 


for i in range(len(seq) - TIMESTEPS - 1): 
XxX.append([seq[i: i + TIMESTEPS]]) 
y.append([seq[i + TIMESTEPS]]) 


return np.array(X, dtype=np.float32), np.array(y, dtype=np.f1 


def lstm model(X, y): 
# 使 用 多 层 的 lstm 结 构 。 
lstm cell = tf.nn.rnn_cell.BasicLSTMCell(HIDDEN_ SIZE) 


cell = tf.nn.rnn_cell.MultiRNNCell([lstm cell] * NUM_LAYERS) 


x_ = tf.unpack(X, axis=1) 2- 


# 使 用 TensorFlow 接 口 将 多 层 的 LSTM 结 构 连接 成 RNN 网 络 并 计算 其 前 向 传播 结 


output, _ = tf.nn.rnn(cell, x_, dtype=tf.float32) 
# 在 本 问题 中 只 关注 最 后 一 个 时 刻 的 输出 结果 ， 该 结果 为 下 一 时 刻 的 预测 值 。 


output = output[-1] 


# 对 LSTM 网 络 的 输出 再 做 加 一 层 全 链接 层 并 计算 损失 。 注 意 这 里 默认 的 损失 为 平均 
# 平方 差 损失 函数 。 


prediction, loss = learn.models.1linear_regression(output, y) 


# 创建 模型 优化 器 并 得 到 优化 步 又。 
train op = tf.contrib.1layers.optimize_ loss( 
loss, tf.contrib.framework.get_global step(), 


optimizer="Adagrad", learning_rate=0.1) 


return prediction, loss, train_op 


# 建立 深层 循环 网 络 模型 。 


regressor = learn.Estimator(model fn=lstm model) 


# 用 正弦 函数 生成 训练 和 测试 数据 集合 。 


# numpy .linspace 函 数 可 以 创建 一 个 等 差 序列 的 数组 ， 它 常用 的 参数 有 三 个 参 
数 ， 第 一 个 参数 


# ”表示 起 始 值 ， 第 二 个 参数 表示 终止 值 ， 第 三 个 参数 表示 数列 的 长 度 。 例 如 ， 
linespace(1,10,10) 


# 产生 的 数组 是 arrray([1,2,3,4,5,6,7,8,9,10])。 

test_start = TRAINING EXAMPLES * SAMPLE_ GAP 

test_end = (TRAINING EXAMPLES + TESTING EXAMPLES) * SAMPLE_ GA 
train XxX, train_y = generate data(np.sin(np.1linspacel( 

0, test_ start, TRAINING EXAMPLES, dtype=np.float32))) 

test Xx, test y = generate data(np.sin(np.linspace( 


test_start, test_ end, TESTING EXAMPLES, dtype=np.float32))) 


# 调用 fit 函 数 训练 模型 。 
regressor.fit(train X，train y, batch size=BATCH_SIZE, 


steps=TRAINING_STEPS) 


# 使 用 训练 好 的 模型 对 测试 数据 进行 预测 。 

predicted = [[pred] for pred in regressor.predict(test Xx)] 
# 计算 rmse 作 为 评价 指标 。 

rmse = np.sqrt(((predicted - test y) ** 2).mean(axis=0)) 


print ("Mean Square Error is: %f" % rmse[0]) 


运行 以 上 程序 可 以 得 到 输出 : ”人 名- 
Mean Square Error is: 0.002183 


从 输出 可 以 看 出 通过 循环 神经 网 络 可 以 非常 精确 的 预测 正弦 函数 sin 的 取 值 。 


# 对 预测 的 Sin 函 数 曲线 进行 绘图 ， 并 存储 到 运行 目录 下 的 Sin.png 

fig = plt.figure() 

plot_predicted = plt.plot(predicted, label='predicted') 
plot_test = plt.plot(test y, label='real sin') 
plt.legend([plot predicted, plot test|], ['predicted', 'real s 
# 得 到 的 结果 如 图 8-21 所 示 。 


fig.savefig('sin.png') 








从 图 8-13 中 可 以 看 出 ， 预 调 得 到 的 结果 和 真实 的 Sin 函数 几乎 是 重合 的 。 也 就 是 说 通过 
循环 神经 网 络 可 以 非常 好 地 预测 sin 函 数 的 取 值 。 
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图 8-13 通过 循环 神经 网 络 预 测 sin 函 数 得 到 的 结果 
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本 章 详 细 介 绍 了 循环 神经 网 络 的 整体 架构 ， 并 介绍 了 循环 神经 网 络 中 最 常用 的 LSTM 结 
构 。 在 本 章 中 也 给 出 了 两 个 具体 的 样 例 来 介绍 如 何 将 循环 神经 网 络 应 用 于 实际 问题 之 中 。 
首先 ， 在 本 章 的 8.1 节 中 讲解 了 什么 是 循环 神经 网 络 。 在 这 一 节 中 介绍 了 循环 神经 网 络 的 
整体 结构 ， 并 给 出 了 一 个 有 具体 的 样 例 来 说 明 循 环 神经 网 络 是 如 何 工作 的 。 接 着 ， 在 8 .2 市 
中 介绍 循环 神经 网 络 中 使 用 的 最 为 广泛 的 LSTM 结 构 ， 大 致 介绍 了 LSTM 结 构 的 主要 成 分 ， 
并 给 出 了 具体 的 TensorFlow 样 例 程 序 来 实现 使 用 了 LSTM 结 构 的 循环 神经 网 络 。 然 后 ， 
在 8.3 节 中 介绍 了 LSTM 结 构 的 一 些 主流 变种 。 最 后 ， 在 8 ,4 节 中 给 出 了 使 用 循环 神经 网 络 
解决 具体 问题 的 两 个 案例 。 在 8.4.1 小 节 中 介绍 了 如 何 使 用 循环 神经 网 络 实现 自然 语言 模 
型 ， 在 8.,4.2 小 节 介绍 了 通过 TensorFlow 的 高 层 封装 TFLearn 实 现时 序 预 测 问 题 。 














(1) 本 节 内 容 部 分 参考 了 资料 http://colah.github.io/posts/2015-068-Understanding-LSTMsS/。 


【有 ji 参见 : Sathasivam S. Logic Learning In Hopfield Networks [J]. Modern Applied 
Science, 2009. 






































(3) 本 章 关 于 循环 神经 网 络 的 介绍 图 片 部 分 来 自 资料 http://colah.github.io/posts/2015-08- 


Understanding- LSTMS/ 。 


(4) ”关于 单词 向 量 的 简单 介绍 可 参考 第 1 章 1.3 节 。 





























(5) 关于 单词 向 量 更 加 详细 的 介绍 可 以 参考 论文 : Mikolov T, Sutskever I 了 I, Chen K， et al. 
Distributed Representations of Words and Phrases and their Compositionality [J]. 
Advances in Neural Information Processing Systems, 2013, 26:3111-3119. 
















































































(6)_ 图 中 中 间 标 有 tanh 的 小 方 框 表示 一 个 使 用 了 tanh 作 为 激活 函数 的 全 连接 神经 网 络 。 

















(7) 也 有 资料 中 将 会 将 上 一 时 刻 状态 对 应 的 权重 和 当前 时 刻 输入 对 应 的 权重 特意 分 开 ， 但 它们 的 实质 是 一 样 的 。 本 
节 展 示 样 例 中 为 了 方便 显示 ， 采 用 了 向 量 拼接 的 方式 ， 在 本 节 的 代码 中 为 了 方便 代码 编写 ， 采 用 了 分 开 的 方式 。 
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Recurrent Neural Networks [J]. Computer Science, 2013. 
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(12) 注意 这 里 定义 的 实际 上 是 节点 被 保留 的 概率 。 如 果 给 出 的 数字 为 6.9， 那 么 只 有 40% 的 节点 会 被 dropout。 
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{ay 关于 更 多 关于 使 用 TensorFlow 实 现 单 词 向 量 的 资料 可 以 参考 TensorFlow 官 方 网 站 : https://www. 
tensorflow.org/tutorials/word2vec/。 

















{Tm} 在 TensorFlow 0.9.0 下 运行 会 提示 : “WARNING: tensorflow: 
<tensorflow.python.ops.rnn_cell.BasicLSTMCell object at 0x7fcb4f3ae150>: Using a 
concatenated state is slower and will soon be deprecated. Use state_is_tuple=True.” 这 不 
会 影响 运行 。 但 是 TensorFlow0 .9.0 对 state_is_tupe=True 不 支持 ， 所 以 书 中 没有 设置 ， 在 TensorFlow 更 高 的 
版 本 中 可 以 将 state_is_tuple 参 数 设 置 为 True。 


















































(16) ”本 小 节 部 分 内 容 参考 自 : http://mourafiq.com/2016/05/15/predicting-sequences-using-rnn- 
in-tensorflow.html 


(17)” TFLearn 又 名 skflow， 它 们 是 同一 套 系统 。 


























(18) ” 更 多 关于 iris 数 据 集 的 信息 可 以 参考 : http://archive.ics.uci.edu/ml/datasets/Iris。 








(19) ”此 处 要 求 TensorFlow9.10.0 及 以 上 版 本 。 




















(20) ”运行 该 程序 可 能 会 因为 TFLearn 的 版 本 而 得 到 一 些 warning， 但 这 些 warning 不 会 影响 程序 的 正常 运行 。 


第 9 童 TensorBoard 可 视 化 














前 面 的 章节 已 经 介绍 了 如 何 使 用 TensorFlow 实 现 常用 的 神经 网 络 结构 。 在 将 这 些 神经 网 








络 用 于 实际 问题 之 前 ， 需 要 先 优化 神经 网 络 中 的 参数 。 这 就 是 训练 神经 网 络 的 过 程 。 训 练 


























神经 网 络 十 分 复杂 ， 有 时 需要 几 天 甚至 几 周 的 时 间 。 为 了 更 好 的 管理 、 调 试 和 优化 神经 网 
络 的 训练 过 程 ，TensorFlow 提 供 了 一 个 可 视 化 工具 TensorBoard。TensorBoard 可 
以 有 效 地 展示 TensorFlow 在 运行 过 程 中 的 计算 图 、 各 种 指标 随 着 时 间 的 变化 趋势 以 及 训 


























练 中 使 用 到 的 图 像 等 信息 。 








本 章 将 详细 介 绍 TensorBoard 的 使 用 方法 。 首 先 ，9 .1 节 
识 ， 并 通过 TensorBoard 来 可 视 化 一 个 简单 的 TensorFlow 术 
绍 如 何 启动 TensorBoard， 并 大 致 讲解 TensorBoard 提 供 的 几 类 
9.2 节 将 介绍 通过 TensorBoard 得 到 的 TensorFLow 计 算 图 
TensorFlow 计 算 图 保存 了 TensorFlow 程 序 计算 过 程 的 所 有 信息 



































将 介绍 TensorBoard 的 基础 知 
EF 例 程 序 。 在 这 一 节 中 将 介 








可 视 化 信息 。 然 后 ， 

















的 可 视 化 结果 。 


因为 TensorF1Low 计 


算 图 中 的 信息 含量 较 多 ， 所 以 TensorBoard 设 计 了 一 套 交互 过 程 来 更 加 清晰 地 呈现 这 些 









































信息 。 在 这 一 节 中 将 详细 介绍 TensorBoard 的 交互 流程 以 及 可 视 化 结果 中 提供 的 信息 。 








最 后 ， 9.3 节 将 详细 讲解 如 何 使 用 TensorBoard 对 训练 过 程 进行 监控 ， 以 及 如 何 通过 














TensorFlow 指 定 需要 可 视 化 的 指标 。 在 这 一 节 中 给 出 了 完 
视 化 结果 。 





9.1 TensorBoard 简 介 








整 的 





F 例 程序 介绍 如 何 得 到 可 


TensorBoard 是 TensorFlow 的 可 视 化 工具 ， 它 可 以 通过 TensorFlow 程 序 运行 过 程 中 
输出 的 日 志文 件 可 视 化 TensorFlow 程 序 的 运行 状态 。TensorBoard 和 TensorFlow 程 
序 跑 在 不 同 的 进程 中 ，TensorBoard 会 自动 读 取 最 新 的 TensorFlow 日 志文 件 ， 并 呈现 














当前 TensorFlow 程 序 运行 的 最 新 状态 。 以 下 代码 展示 了 一 个 简单 的 TensorFlow 程 序 ， 





在 这 个 程序 中 完成 了 TensorBoard 日 志 输 出 的 功能 。 


import tensorflow as tf 


# 定义 一 个 简单 的 计算 图 ， 实 现 向 量 加 法 的 操作 。 


input1 = tf.constant([1.0, 2.0, 3.0], name="input1") 


input2 = tf.Variable(tf.random uniform([3]), name="input2") 


output = tf.add_n([input1i, input2], name="add") 


# ”生成 一 个 写 日 志 的 writer， 并 将 当前 的 TensorFlow 计 算 图 写 入 日 志 。 


TensorFlow 提 供 了 多 


# 种 写 日 志文 件 的 API， 在 9.3 节 中 将 详细 介绍 。 


writer = tf.train.SummaryWwriter("/path/to/log", tf.get defaul 


writer.close() 


以 上 程序 输出 了 TensorF1Low 计 算 图 的 信息 ， 所 以 运行 TensorBoard 时 ， 可 以 看 到 这 个 
向 量 相 加 程序 计算 图 可 视 化 之 后 的 结果 。TensorBoard 不 需要 额外 的 安装 过 程 ， 在 
TensorFlow 安 装 完 成 时 ，TensorBoard 会 被 自动 安装 。 运 行 下 面 的 命令 可 以 启动 
TensorBoard。 





# 运行 TensorBoard， 并 将 日 志 的 地 址 指向 上 面 程序 日 志 输 出 的 地 址 。 


tensorboard --logdir=/path/to/log 





运行 上 面 的 命令 会 启动 一 个 服务 ， 这 个 服务 的 端口 默认 为 6606 “” 鱼 一 。 通 过 浏览 器 打开 
localIhost;6966， 可 以 看 到 图 9-1 所 示 的 界面 ， 在 个 窗 的 上 方 ， 可 以 看 到 有 五 栏 ， 分 
别 是 EVENTS、IMAGES、AUDI0O、GRAPHS 和 HISTOGRAMS。TensorBoard 中 每 一 栏 都 
对 应 了 一 类 信息 的 可 视 化 结果 ， 在 下 面 的 章节 中 将 具体 介绍 每 一 栏 的 功能 。 如 图 9-1 所 
示 ， 打 开 TensorBoard 算 面 全 默认 进入 EVENTS 栏 。 因为 上 面 的 程序 没有 输出 任何 由 
EVENTS 栏 可 视 化 的 信息 ， 所 以 这 个 界面 显示 的 是 “No scalar data was 
found.” (没有 发 现 标 量 数据 ) 。 点 击 进 入 GRAPHS 栏 ， 可 以 看 到 上 面 程序 TensorFlow 
计算 图 的 可 视 化 结果 。 图 9- 2 展示 了 这 个 TensorFlow 计 算 图 的 可 视 化 吉 果 。9 ,2 节 将 详 
细 介 绍 如 何 理解 TensorF1Low 计 算 图 的 可 视 化 结果 中 提供 的 信息 。 








we cataggrop 。 X 
口 pm on dorsoons No scalar data was found. 
口 ba Gourioed im 
Probable causes: 
dA » You haven't written any scalar data to your event files. 
» TensorBoard canit find your event files. 
EE : Ifyoure new to using TensorBoard, and want to find out how to add da 
and set up your en ee tk ct the README and perhaps the 


TensorBoard Wutorial 

If you think TensorBoard is configured properly please see the section of 

Ihe README devoted lo missing data problems and consider fling an issue 
on GitHub. 











图 9-1 TensorBoard 默 认 栏 界面 
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图 9-2 使 用 TensorBoard 可 视 化 向 量 相 加 程序 TensorFlow 计 算 图 的 结果 





9.2 ” TensorFlow 计 算 图 可 视 化 


在 图 9-2 中 给 出 了 一 个 TensorFlow 计 算 图 的 可 视 化 效果 图 。 然 而 ， 从 
TensorBoard 可 视 化 结果 中 可 以 获取 的 信息 远 不 止 图 9-2 中 所 示 的 这 些 。 
这 一 节 将 详细 介绍 如 何 更 好 地 利用 TensorFlow 计 算 图 的 可 视 化 结果 。 首 
先 ，9.2.1 小 节 将 介绍 通过 TensorFlow 节 点 的 命名 空间 整理 TensorBoard 可 
视 化 得 到 的 TensorFlow 计 算 图 。 在 第 3 章 中 介绍 过 ，TensorFlow 会 将 所 有 
的 计算 以 图 的 形式 组 织 起 来 。TensorBoard 可 祝 化 得 到 的 图 并 不 仅 是 将 
TensorFlow 计 算 图 中 的 节点 和 边 直接 可 视 化 ， 它 会 根据 每 个 TensorFlow 
计算 节点 的 命名 空间 来 整理 可 视 化 得 到 的 效果 图 ， 使 得 神经 网 络 的 整体 
结构 不 会 被 过 多 的 细节 所 淹没 。 除 了 显示 TensorFlow 计 算 图 的 结构 ， 
TensorBoard 还 可 以 展示 TensorFlow 计 算 节 点 上 的 其 他 信息 。 然 后 ，9.2.2 
人 小节 将 详细 介 绍 如 何 从 可 视 化 结果 中 获取 TensorFlow 计 算 图 中 的 这 些 信 





9.2.1 命名 空间 与 TensorBoard 图 上 刷 
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在 9.1 节 给 出 的 样 例 程 序 中 只 定义 了 一 个 加 法 操作 ， 然 而 从 图 9-2 中 可 以 
看 到 ， 将 这 个 TensorFlow 计 算 图 可 视 化 得 到 的 效果 图 上 却 有 八 个 节点 。 
除去 声明 标量 、 篆 量 所 产生 的 节点 ， 变 量 的 初始 化 过 程 也 会 产生 新 的 计 
算 节 点 。 更 重要 的 是 ， 这 些 节 点 的 排列 可 能 会 比较 乱 ， 这 导致 主要 的 计 
算 节 点 可 能 被 埋没 在 大 量 信 息 量 不 大 的 节点 中 ， 使 得 可 视 化 得 到 的 效果 
图 很 难 理 解 。 比 如 在 图 9-2 中 ，TensorFlow 中 定义 的 加 法 运算 所 代表 的 节 
点 只 显示 在 了 右 侧 一 个 较 小 的 区 域 ， 基 本 上 被 变量 初始 化 的 操作 所 埋 
没 。 可 以 想象 ， 一 个 复杂 的 神经 网 络 模型 所 对 应 的 TensorFlow 计 算 网 会 
比 9.1 节 中 简单 的 癌 量 加 法 样 例 程序 的 计算 图 复杂 和 很多， 那么 没有 经 过 
整理 得 到 的 可 视 化 效果 图 并 不 能 帮助 很 好 地 理解 神经 网 络 模型 的 结构 。 


为 了 更 好 地 组 织 可 视 化 效果 图 中 的 计算 节点 ，TensorBoard 支 持 通 过 
TensorFlow 命 名 空间 来 整理 可 视 化 效果 图 上 的 节点 。 在 TensorBoard 的 默 
认 视 图 中 ，TensorFlow 计 算 图 中 同一 个 命名 空间 下 的 所 有 节点 会 被 缩 略 
成 一 个 节点 ， 只 有 顶层 命名 空间 中 的 节点 才 会 被 显示 在 TensorBoard 可 
视 化 效果 图 上 。 在 5.3 节 中 已 经 介绍 过 变量 的 命名 空间 ， 以 及 如 何 通 过 
































tf.variable_scope 函 数 管理 变量 的 命名 空间 。 除 了 tt.variable_scope 函 数 ， 
tf.name_scope 函 数 也 提供 了 命名 空间 管理 的 功能 。 这 两 个 函数 在 大 部 分 
情况 下 是 等 价 的 ， 唯一 的 区 别 是 在 使 用 tf.get_variable 函 数 时 。 以 下 代码 
简单 地 说 明了 这 两 个 函数 的 区 别 。 


wl 





import tensorflow as tf 


with tf.variable _ scope("foo"): 
# 在 命名 空间 foo 下 获取 变量 “bar”， 于 是 得 到 的 变量 名 称 为 “foo/bar”。 
a = tf.get variable("bar", [1]) 


print a.name # 输出 : foo/bar:0 


with tf.variable_ scope("bar"): 


# 在 命名 空间 bar 下 获取 变量 “bar”， 于 是 得 到 的 变量 名 称 为 “bar/bar”。 此 时 变 


# “bar/bar” 和 变量 “foo/bar” 并 不 冲突 ， 于 是 可 以 正常 运行 。 
b = tf.get variable("bar", [1]) 


print b.name # 输出 : bar/bar:0 


with tf.name_scope("a"): 


# 使 用 tf.Variable 函 数 生成 变量 会 受 tf.name_scope 影 响 ， 于 是 这 个 变量 的 名 


# 为 “a/Variable”。 
a = tf.Variable([1]) 


print a.name # 输出 : 


a/Variable:0 


# tf.get_ Variable 函数 不 受 tf.name_scope 函 数 的 影响 ， 
# 于 是 变量 并 不 在 a 这 个 命名 空间 中 。 
a = tf.get variable("b", [1]) 


print a.name # 输出 : b:0 


with tf.name_scope("b"): 


# 因为 tf.get_variable 不 受 tf.name_scope 影 响 ， 所 以 这 里 将 试图 获取 名 称 





# 为 “a” 的 变量 。 然 而 这 个 变量 已 经 被 声明 了 ， 于 是 这 里 会 报 重复 声明 的 错误 : 
# ValueError: Variable bar already exists, disallowed. Did yo 
# to set reuse=True in VarScope? Originally defined at: .. 


tf.get_variable("b", [1]) 


通过 对 命名 空间 管理 ， 可 以 改进 9.1 节 中 向 量 相 加 的 样 例 代码 ， 使 得 可 
视 化 得 到 的 效果 图 更 加 清晰 。 以 下 代码 展示 了 改进 的 方法 。 








# 将 输入 定义 放 入 各 自 的 命名 空间 中 ， 从 而 使 得 TensorBoard 可 以 根据 命名 空间 
来 整理 可 视 化 效 


# 果 图 上 的 节点 。 

with tf.name_scope("input1"): 

input1 = tf.constant([1.0, 2.0, 3.0], name="input1") 

with ctf.name_ scope("input2"): 

input2 = tf.Variable(tf.random uniform([3]), name="input2") 


output = tf.add_n([input1i, input2], name="add") 


writer = tf.train.SummaryWriter("/path/to/log", tf.get defaul 


writer.close() 


图 9-3 中 显示 了 改进 后 的 可 视 化 效果 图 。 从 图 中 可 以 看 到 ， 图 9-2 中 很 多 
的 节点 都 被 缩 略 到 了 图 9-3 中 的 input2 节 点 。 这 样 TensorFlow 程 序 中 定义 
的 加 法 运算 被 清晰 地 展示 了 出 来 。 需 要 查看 input2 市 点 中 具体 包含 了 哪 
些 运算 时 ， 可 以 将 鼠标 移动 到 input2 节 点 ， 并 点 开 右 上 和 角 的 加 号 “+”-。 
图 9-4 显 示 了 展开 input2 节 点 之 后 的 视图 。 








input2 | 











图 9-3 ”改进 后 向 量 加 法 程序 TensorFlow 计 算 图 的 可 视 化 效果 图 
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f input2  ] 





|random_uniform 上 = mputz 
\ bs 业 











图 9-4 ”展开 input2 节 点 的 可 视 化 效果 图 


在 input2 的 展开 图 中 可 以 看 到 图 9-2 中 数据 初始 化 相关 的 操作 都 被 整理 到 
了 一 起 。 下 面 将 给 出 一 个 样 例 程序 来 展示 如 何 很 好 地 可 视 化 一 个 真实 的 
神经 网 络 结构 图 。 本 节 将 继续 采用 5.5 节 中 给 出 的 架构 ， 以 下 代码 给 出 
了 改造 后 的 mnist_train.py 程 序 。 





import tensorflow as tf 


from tensorflow.examples.tutorials.mnist import input_data 


# mnist_inference 中 定义 的 常量 和 前 向 传播 的 函数 不 需要 改变 ， 因 为 前 向 传播 
已 经 通过 


# tf,variable scope 实现 了 计算 节点 按照 网 络 结构 的 划分 。 


import mnist_inference 


INPUT_NODE = 784 
OUTPUT_NODE = 10 


LAYER1_ NODE = 500 


def train(mnist): 
# 将 处 理 输入 数据 的 计算 都 放 在 名 字 为 “input” 的 命名 空间 下 。 
with tf.name_scope(' input ) : 
x = tf.placeholder( 


tf.float32, [None, mnist_inference.INPUT_ NODE], name= 
input"') 


y_ = tf.placeholder( 
tf.float32, [None, mnist_inference.OUTPUT_ NODE], 


name='y-cinput') 


regularizer = tf.contrib.1layers.12 regularizer (REGULARAZTI 


y = mnist_inference.inference(x, regularizer) 


global step = tf.Variable(0, trainable=False) 


# 将 处 理 滑动 平均 相关 的 计算 都 放 在 名 为 novijng_average 的 命名 空间 下 。 


with tf.name_scope("moving_average"): 
variable averages = tf.train.ExponentialMovingAverage( 
MOVING AVERAGE_DECAY, global_ step) 
variables_ averages op = variable averages.apply( 


tf.trainable variables()) 


# 将 计算 损失 函数 相关 的 计算 都 放 在 名 为 1oss_function 的 命名 空间 下 。 
with tf.name_scope("loss function"): 
cross_entropy = tf.nn.sparse softmax_cross_ entropy_with_ lo 
y, tf.argmax(y_, 1)) 
cross_entropy_mean = tf.reduce mean(cross_ entropy) 


loss = cross_entropy_ mean + tf.add n(tf.get collection('lo 


# ”将 定义 学 习 率 、 优 化 方法 以 及 每 一 轮训 练 需要 执行 的 操作 都 放 在 名 字 


为 “train_step” 
# 的 命名 空间 下 。 
with tf.name_scope("train_ step"): 
learning_rate = tf.train.exponential decay( 

LEARNING RATE_BASE, 
global_step, 
mnist.train.num examples / BATCH_SIZE, 
LEARNING RATE_DECAY, 
staircase=True) 


train_step = tf.train.GradientDescentOptimizer(learning_r 


.minimize(loss, global step=global_ step 
with tf.control dependencies([train_ step, variables avera 


train_ op = tf.no_op(name='train') 


# 使 用 和 5 .5 节 中 一 样 的 方式 训练 神经 网 络 。 


# 将 当前 的 计算 图 输出 到 TensorBoard 日 志文 件 。 
writer = tf.train.Summarywriter("/path/to/log", tf.get_defaul 


writer.close() 


def main(argv=None): 
mnist = input_data.read data sets("/tmp/data", one_hot=True) 


train(mnist) 


lm enna na 


tf.app.run() 





相 比 5.5 节 中 给 出 的 mnist_train.py 程 序 ， 上 面 程序 最 大 的 改变 就 是 将 完成 
类 似 功能 的 计算 放 到 了 由 tf.name_scope 函 数 生 成 的 上 下 文 管理 器 中 。 这 
样 TensorBoard 可 以 将 这 些 节 点 有 效 地 合并 ， 从 而 突出 神经 网 络 的 整体 
结构 。 因 为 在 mnist_inferenece.py 程 序 中 已 经 使 用 了 tt.variable_scope 来 管 
理 变 量 的 命名 空间 ， 所 以 这 里 不 需要 再 做 调整 。 图 9-5 展 示 了 新 的 
MNIST 程 序 的 TensorFlow 计 算 图 可 视 化 得 到 的 效果 图 。 
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图 9-5 ”改进 后 的 MNIST 样 例 程序 TensorFlow 计 算 图 可 祝 化 效果 图 


从 图 9-5 中 可 以 看 到 ，TensorBoard 可 视 化 效果 图 很 好 的 展示 了 整个 神经 
网 络 的 结构 。 在 图 9-5 中 ，input 节 点 代表 了 训练 神经 网 络 需 要 的 输入 数 
据 ， 这 些 输入 数据 会 提供 给 神经 网 络 的 第 一 层 layer1。 然 后 神经 网 络 第 
一 层 layerl 的 结果 会 被 传 到 第 二 层 ljayer2， 进 过 layer2 的 计算 得 到 前 向 传 
播 的 结果 。loss_function 节 点 表示 计算 损失 函数 的 过 程 ， 这 个 过 程 既 依 
赖 于 前 问 传播 的 结果 来 计算 交叉 〈layer2 到 loss_function 的 边 ) ， 又 依 
赖 于 每 一 层 中 所 定义 的 变量 来 计算 L2 正 则 化 损失 (layerl1 和 layer2 到 
loss_function 的 边 ) 。loss_function 的 计算 结果 会 提供 给 神经 网 络 的 优化 
过 程 ， 也 就 是 图 中 train_step 所 代表 的 节点 。 综 上 所 述 ， 通 过 TensorBoard 
可 视 化 得 到 的 效果 图 可 以 对 整个 神经 网 络 的 网 络 结构 有 一 个 大 致 了 解 。 


在 图 9-5 中 可 以 发 现 节 点 之 间 有 两 种 不 同 的 边 。 一 种 边 是 通过 实 线 表示 
的 ， 这 种 边 刻 画 了 数据 传输 ， 边 上 箭头 方向 表达 了 数据 传输 的 方向 。 比 
如 layer1 和 layer2 之 间 的 边 表示 了 layer1l 的 输出 将 会 作为 ljayer2 的 输入 。 有 
些 边 上 的 箭头 是 双 加 的， 比如 节点 Variable 和 train_step 之 间 的 边 。 这 表 
明 train_step 会 修改 Variable 的 状态 ， 在 这 里 也 就 是 表明 训练 过 程 会 修改 
记录 训练 迭代 轮 数 的 变量 2。 


TensorBoard 可 视 化 效果 图 的 边 上 还 标注 了 张 量 的 维度 信息 。 图 9-6 放 大 
了 可 视 化 得 到 的 效果 图 ， 从 图 中 可 以 看 出 ， 节 点 input 和 layer1l 之 间 传 输 
的 张 量 的 维度 为 100x784。 这 说 明了 训练 时 提供 的 batch 大 小 为 100， 输 

入 层 节 点 的 个 数 为 784。 当 两 个 节点 之 间 传 输 的 张 量 多 于 1 个 时 ， 可 视 化 
效果 图 上 将 只 显示 张 量 的 个 数 。 效 果 图 上 边 的 粗细 表示 的 是 两 个 节点 之 




















间 传 输 的 标量 维度 的 总 大 小 ， 而 不 是 传输 的 标量 个 数 。 比 如 layer2 和 
loss_function 之 间 虽 然 传 输 了 两 个 张 量 ， 但 其 维度 都 比较 小 ， 所 以 这 条 
边 比 layer1 和 1layer2 之 间 的 边 还 要 细 。 
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图 9-6 ”TensorBoard 可 视 化 效果 图 中 边 上 信息 


TensorBoard 可 视 化 效果 图 上 男 外 一 种 边 是 通过 虚线 表示 的 ， 比 如 图 9-5 
中 所 示 的 moving_average 和 train_step 之 间 的 边 。 虚 边 表 达 了 计算 之 间 的 
依赖 关系 ， 比 如 在 程序 中 ， 通 过 tf.control_dependencies 函 数 指定 了 更 新 
参数 请 动 平 均值 的 操作 和 通过 反 辐 传播 更 新 变量 的 操作 需要 同时 进行 ， 
于 是 moving_average 与 train_step 之 间 存 在 一 条 虚 边 。 


除了 手动 的 通过 TensorFlow 中 的 命名 空间 来 调整 TensorBoard 的 可 视 化 效 
果 图 ，TensorBoard 也 会 智能 地 调整 可 视 化 效果 图 上 的 节点 。TensorFlow 
中 部 分 计算 节点 会 有 比较 多 的 依赖 关系 ， 如 果 全 部 画 在 一 张 图 上 会 使 可 
视 化 得 到 的 效果 图 非常 拥挤 。 于 是 TensorBoard 将 TensorFlow 计 算 图 分 成 
了 主 图 (Main Graph) 和 辅助 图 (Auxiliary nodes) 两 个 部 分 来 呈现 。 
在 图 9-5 中 ， 左 侧 展 示 的 是 计算 图 的 主要 部 分 ， 也 就 是 主 图 ; 右 侧 展示 

的 是 一 些 单独 列 出 来 的 节点 ， 也 就 是 辅助 图 。TensorBoard 会 自动 将 连 

接 比 较 多 的 节点 放 在 辅助 图 中 ， 使 得 主 图 的 结构 更 加 清晰 。 


除了 和 上 自动 的 方式 ，TensorBoard 也 文 持 手工 的 方式 来 调整 可 视 化 结果 。 

如 图 9-7 所 示 ， 石 键 单 击 可 视 化 效果 图 上 的 节点 会 弹出 一 个 选项 ， 这 个 
选项 可 以 将 节点 加 入 主 图 或 者 从 主 图 中 删除 。 左 键 选择 一 个 节点 并 点 击 
言 奶 框 下 部 的 选项 也 可 以 完成 类 似 的 功能 。 图 9-8 展 示 了 将 train_step 市 











点 从 主 图 中 移出 后 的 效果 ， 图 9-9 展 示 了 将 Variable 节 点 移入 主 图 后 的 效 
果 。 注 意 TensorBoard 不 会 保存 用 户 对 计算 图 可 视 化 结果 的 手工 修改 ， 
页 面 刷新 之 后 计算 图 可 视 化 结果 又 会 回 到 最 初 的 样子 。 
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(b) 手工 将 TensorFlow 计 算 图 可 视 化 效果 图 中 节点 加 入 主 图 











图 9-7 手工 将 TensorFlow 计 算 图 可 视 化 效果 图 中 节点 加 入 /移出 主 图 

















图 9-8 ”将 train_step 节 点 从 主 图 中 移出 后 的 效果 图 
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图 9-9 ”将 Variable 节 点 移入 主 图 后 的 效果 
于 > 
9 @ 2 @ 2 也 六 日 忌 


除了 展示 TensorFlow 计 算 图 的 结构 ，TensorBoard 还 可 以 展示 TensorFlow 
计算 图 上 每 个 节点 的 基本 信息 以 及 运行 时 消耗 的 时 间 和 空间 。 本 小 节 将 
进一步 讲解 如 何 通 过 TensorBoard 展 现 TensorFlow 计 算 图 节点 上 的 这 些 信 
上 县。TensorFlow 计 算 节 点 的 运行 时 间 都 是 非常 有 用 的 信息 ， 它 可 以 帮助 
更 加 有 针对 性 地 优化 TensorFlow 程 序 ， 使 得 整个 程序 的 运行 速度 更 快 。 
使 用 TensorBoard 可 以 非常 直观 地 展现 所 有 TensorFlow 计 算 节 点 在 某 一 次 
运行 时 所 消耗 的 时 间 和 内 存 。 将 以 下 代码 加 入 9.2.1 小 节 中 修改 后 的 
mnist_train.py 神 经 网 络 训练 部 分 ， 束 可 以 将 不 同 迭 代 轮 数 时 每 一 个 
TensorFlow 计 算 节 点 的 运行 时 间 和 消耗 的 内 存 写 入 TensorBoard 的 日 志文 
件 中 








with tf.Session() as sess: 


tf.initialize all variables().run() 


for i In range(TRAINING_STEPS ) : 


xs, ys = mnist,train.next_batch(BATCH_SIZE ) 


# 每 1000 轮 记录 一 次 运行 状态 。 


if i % 1000 == 








# 配置 运行 时 需要 记录 的 信息 。 
run_options = tf.RUNOptions( 


trace_level=tf .RUuNOptions.FULL_TRACE) 





# 运行 时 记录 运行 信息 的 proto。 


run_metadata = tf.RuNMetadatal() 





eR # 将 配置 信息 和 记录 运行 信息 的 proto 传 入 运行 的 过 程 ， 从 而 记录 
运行 时 每 一 人 


# 节点 的 时 间 、 空 间 开 销 信息 。 
_, loss value, step = Sess.run( 


[train op, loss, global step], feed_ dict= 
{x: xs, y_: ys}, 


options=run_options, run_metadata=run_metadat 
# 将 节点 在 运行 时 的 信息 写 入 日 志文 件 。 
train writer.add_run metadata(run_ metadata, 'step 
print("After %d training step(s), loss on trainin 
"Is %g." % (step, loss_value)) 
else: 
_, loss value, step = Sess.run( 


[train_op, loss, global step], feed_ dict= 
{x: xs, y_: ys}) 


运行 以 上 程序 ， 并 使 用 这 个 程序 输出 的 日 志 启 动 TensorBoard， 束 可 以 


可 视 化 每 个 TensorFlow 计 算 节 点 在 某 一 次 运行 时 所 消耗 的 时 间 和 空间 

了 。 进 入 GRAPHS 栏 后 ， 需 要 先 选 择 一 次 运行 来 查看 。 如 图 9-10 (a) 
所 示 ， 点 击 页面 左 侧 的 Session runs 选 项 会 出 现 一 个 下 拉 单 ， 在 这 个 下 拉 
单 中 会 出 现 所 有 通过 train_writer.add_run_metadata 函 数 记 录 的 运行 数 

据 。 如 图 9-10 (b) 所 示 ， 选 择 一 次 运行 后 ，TensorBoard 左 侧 的 Color 栏 
中 将 会 新 出 现 Compute time 和 Memory 这 两 个 选项 。 
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(a) 选择 运行 记录 的 页 面 (b) 选择 完 运行 记录 后 Color 栏 多 出 来 的 选项 


图 9-10 ”TensorBoard 运 行 记 录 选 择 界 面 


在 Color 栏 中 选择 Compute time 可 以 看 到 在 这 次 运行 中 每 个 TensorFlow 计 
算 节 点 的 运行 时 间 。 类 似 的 ， 选 择 Memory 可 以 看 到 这 次 运行 中 每 个 
TensorFlow 计 算 节 点 所 消耗 的 内 存 。 几 9-11 展 示 了 在 第 10000 轮 迭代 时 ， 
不 同 TensorFlow 计 算 节 点 时 间 消 耗 的 可 视 化 效果 图 。 图 中 颜色 越 深 的 节 
点 表示 时 间 消 耗 越 大 。 从 图 9-11 中 可 以 看 出 ， 代 表 训 练 神 经 网 络 的 
train_step 节 点 消耗 的 时 间 是 最 多 的 。 通 过 对 每 一 个 计算 节点 消耗 时 间 的 
可 视 化 ， 可 以 很 容易 地 找到 TensorFlow 计 算 图 上 的 性 能 瓶颈 ， 这 大 大 方 
便 了 算法 优化 的 工作 。 在 性 能 调 优 时 ， 一 般 会 选择 迭代 轮 数 较 大 时 的 数 
据 〈 比 如 图 9-11 中 第 10000 轮 从 代 时 的 数据 ， 作 为 不 同 计算 节点 时 间 / 空 
间 消 耗 的 标准 ， 因 为 这 样 可 以 减少 TensorFlow 初 始 化 对 性 能 的 影响 。 
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图 9-11 第 10000 轮 迭代 时 不 同 TensorFlow 计 算 节点 时 间 消 耗 的 可 视 化 效果 图 


在 TensorBoard 界 面 左 侧 的 Color 栏 中 ， 除 了 Compute time 和 Memory， 还 
有 Structure 和 Device 两 个 选项 。 在 图 9-3 到 图 9-9 中 ， 展 示 的 可 视 化 效果 图 
都 是 使 用 默认 的 Structure 选 项 。 在 这 个 视图 中 ， 灰 色 的 节点 表示 没有 其 
他 节点 和 它 拥 有 相同 结构 。 如 果 有 两 个 节点 的 结构 相同 ， 那 么 它们 会 被 
涂 上 相同 的 颜色 。 图 9-12 展 示 了 一 个 拥有 相同 结构 节点 的 卷 积 神经 网 络 
可 视 化 得 到 的 效果 图 。 在 图 9-12 中 ， 两 个 卷 积 层 的 结构 是 一 样 的 ， 所 以 
他 们 都 被 涂 上 了 相同 的 颜色 。 最 后 ，Color 栏 还 可 以 选择 Device 选 项 ， 这 
个 选项 可 以 根据 TensorFlow 计 算 节 点 运行 的 机 器 给 可 视 化 效果 图 上 的 节 
点 染色 。 在 使 用 GPU 时 ， 可 以 通过 这 种 方式 直观 地 看 到 哪些 计算 节点 被 
放 到 了 GPU 上 。 图 9-13 给 出 了 一 个 使 用 了 GPU 的 TensorFlow 计 算 图 的 可 
视 化 结果 。 图 9-13 中 深 灰 色 的 节点 表示 对 应 的 计算 放 在 了 GPU 上 ， 浅 灰 
色 的 节点 表示 对 应 的 计算 放 在 了 CPU 上 。 具 体 如 何 使 用 GPU 将 在 第 10 章 


























图 9-12 有 相同 结构 节点 的 卷 积 神经 网 络 计算 图 在 Structure 选 项 下 的 可 视 化 效果 
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图 9-13 ”使 用 了 GPU 的 TensorFlow 计 算 图 的 可 视 化 结果 


当 点 击 TensorBoard 可 视 化 效果 图 中 的 节点 时 ， 界 面 的 右上 角 会 弹出 一 
个 信息 卡片 显示 这 个 节点 的 基本 信息 。 如 图 9-14 所 示 ， 当 点 击 的 节点 为 
一 个 命名 空间 时 ， TensorBoard 展 示 的 信息 有 这 个 命名 空间 内 所 有 计算 

节点 的 输入 、 输 出 以 及 依赖 关系 。 虽然 属 性 。 (Attriubtes〉 也 会 展示 在 
卡 睛 中 ， 但 是 在 代表 命名 空 x 间 的 属性 下 不 会 有 任何 内 容 。 当 Session runs 
选择 了 某 一 次 运行 时 ， 节 点 的 信息 卡片 上 也 会 出 现 这 个 节点 运行 时 所 消 
耗 的 时 间 和 内 存 等 信息 。 
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图 9-14 TensorFlow 命 名 空间 在 TensorBoard 可 视 化 效果 图 上 的 信息 卡片 
当 点 击 的 TensorBoard 可 视 化 效果 图 上 的 节点 对 应 一 个 TensorFlow 计 算 节 


点 时 ，TensorBoard 也 会 展示 类 似 的 信息 。 图 9-15 展 示 了 一 个 TensorFlow 
计算 节点 所 对 应 的 信息 卡片 。 在 TensorBoard 页 面 中 ， 空 心 的 小 椭圆 对 
应 了 TensorFlow 计 算 图 上 的 一 个 计算 节点 ， 而 一 个 矩形 对 应 了 计算 图 上 
的 一 个 命名 空间 。TensorFlow 计 算 节 点 所 对 应 的 信息 卡片 中 的 内 容 和 命 
名 空间 信息 卡片 相似 ， 只 是 TensorBoard 可 以 将 TensorFlow 计 算 节 点 的 属 
性 也 展示 出 来 。 例 如 在 图 9-15 中 ， 属 性 栏 下 显示 了 选中 的 计算 节点 是 在 
什么 设备 上 运行 的 ， 以 及 运行 这 个 计算 时 的 两 个 参数 。 
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图 9-15 ”TensorFlow 计 算 节 点 在 TensorBoard 可 视 化 效果 图 上 的 信息 卡片 


9.3 监控 指标 可 视 化 


在 9.2 节 中 着 重 介 绍 了 通过 TensorBoard 的 GRAPHS 栏 可 视 化 TensorFlow 
计算 图 的 结构 以 及 在 计算 图 上 的 信息 。TensorBoard 除 了 可 以 可 视 化 
TensorFlow 的 计算 图 ， 还 可 以 可 视 化 TensorFlow 程 序 运 行 过 程 中 各 种 有 
助 于 了 解 程序 运行 状态 的 监控 指标 。 在 本 节 中 将 介绍 如 何 利用 
TensorBoard 中 其 他 栏目 可 视 化 这 些 监 控 指 标 。 除 了 GRAPHS 栏 ， 
TensorBoard 界 面 中 还 提供 了 EVENTS、IMAGES、AUDIO 和 
HISTOGRAMS 四 个 栏目 来 可 视 化 其 他 的 监控 指标 。 下 面 的 程序 展示 了 
如 何 将 TensorFlow 程 序 运 行 时 的 信息 输出 到 TensorBoard 日 志文 件 中 。 

















import tensorflow as tf 


from tensorflow.examples.tutorials.mnist import input_data 


SUMMARY_DIR = "/path/to/log" 
BATCH_SIZE = 100 


TRAIN_STEPS = 30000 








# 生成 变量 监控 信息 并 定义 生成 监控 信息 日 志 的 操作 。 其 中 var 给 出 了 需要 记录 的 


张 量 ，name 给 
# 出 了 在 可 视 化 结果 中 显示 的 图 表 名 称 ， 这 个 名 称 一 般 与 变量 名 一 致 。 
def variable_summaries(var，name ) : 
# 将 生成 监控 信息 的 操作 放 到 同一 个 命名 空间 下 。 
with tf.name_scope( "summaries ' ) : 


# 通过 tf.histogram_summary 函 数 记录 张 量 中 元 素 的 取 值 分 布 。 对 于 给 出 
的 图 表 名 称 





# 和 张 量 ，tf.histogram_ Summary 函数 会 生成 一 个 
Summary protocol buffer。 


# 将 Summary 写 入 TensorBoard 日 志文 件 后 ， 可 以 在 HISTOGRAMS 栏 下 看 


到 对 应 名 

# 称 的 图 表 。 图 9-20 给 出 了 一 个 可 视 化 结果 效果 图 。 和 TensorFlow 中 其 他 
操作 类 似 ， 

# tf.histogram_summary 函 数 不 会 立刻 被 执行 ， 只 有 当 Ssess,run 函 数 明 
确 调用 这 


下 个 操作 时 ，TensorFlow 才 会 真正 生成 并 输出 


Summary protocol buffer. 


tf.histogram summary(name, var) 


# 计算 变量 的 平均 值 ， 并 定义 生成 平均 值 信息 日 志 的 操作 。 记 录 变 量 平均 值 信 
息 的 日 志 标签 名 


# 为 'mean/' + name， 其 中 mean 为 命名 空间 ，/ 是 命名 空间 的 分 隔 符 。 从 


图 9-17 





# 中 可 以 看 到 ， 在 相同 命名 空间 中 的 监控 指标 会 被 整合 到 同一 栏 中 。name 则 
给 出 了 当前 监 


# 控 指 标 属于 哪 一 个 变量 。 

mean = tf.reduce mean(var) 

tf.scalar_summary('mean/' + name, mean) 

# 计算 变量 的 标准 差 ， 并 定义 生成 其 日 志 的 操作 。 

stddev = tf.sqrt(tf.reduce mean(tf.square(var - mean))) 


tf.scalar_summary('stddev/' + name, stddev) 


# 生成 一 层 全 链接 层 神经 网 络 。 

def nn_layer(input_tensor, input_dim, output_dim, 
layer_name, act=tf.nn. relu): 

# 将 同一 层 神经 网 络 放 在 一 个 统一 的 命名 空间 下 。 

with tf.name_scope(layer_name): 


# 声明 神经 网 络 边 上 的 权重 ， 并 调用 生成 权重 监控 信息 日 志 的 函数 。 





with tf.name_scope( 'weights'): 
weights = tf.Variable(tf.truncated_ normall( 
[input_dim, output_dim], stddev=0.1)) 


variable_ summaries(weights, layer name + '/weights') 


# 声明 神经 网 络 的 偏 置 项 ， 并 调用 生成 偏 置 项 监控 信息 日 志 的 函数 。 
with tf.name_scope('biases'): 


biases = tf.Variable(tf.constant(0.0, Shape= 
[output_dim])) 


variable_summaries(biases，Jlayer_name + '/biases') 


with tf.name_scope('Wx_plus_b'): 
preactivate = tf.matmul(input_tensor, weights) + bias 
# 记录 神经 网 络 输出 节点 在 经 过 激活 函数 之 前 的 分 布 。 
tf.histogram summary(layer_name + '/pre_activations', 
preactivate) 


activations = act(preactivate, name='activation') 


# 记录 神经 网 络 输出 节点 在 经 过 激活 函数 之 后 的 分 布 。 在 图 9-20 中 ， 对 于 
1ayer1， 


# 为 使 用 了 ReLU 函 数 作为 激活 函数 ， 所 以 所 有 小 于 9 的 值 都 被 设 为 了 9。 于 是 
在 激活 后 


# 的 layer1/activations 图 上 所 有 的 值 都 是 大 于 9 的 。 而 对 于 layer2， 
为 没有 使 


# 用 激活 函数 ， 所 以 layer2/activations 和 layer2/pre activations 


tf.histogram summary(layer_name + '/activations', activat 


return activations 


def main(_): 

mnist = input_data.read data sets("/tmp/data", one_hot=True) 
# 定义 输入 。 

with tf.name_ scope('input'): 


x = tf.placeholder(tf.float32, [None, 784], name='x- 
input") 


y_ = tf.placeholder(tf.float32, [None, 10], name='y- 


Input  ) 


# 将 输入 向 量 还 原 成 图 片 的 像素 矩阵 ， 并 通过 tf .image_summary 函 数 定义 将 当 
前 的 图 片 信 


# 恩 写 入 图 志 的 操作 。 
with tf.name_scope(' input_reshape ' ) : 
image_shaped_input = tf.reshape(x, [-1, 28, 28, 1]) 


tf.image_summary('input', image_ shaped input, 10) 


hidden1 = nn_layer(x, 784, 500, 'layer1') 


y = nn_layer(hiddeni1, 500, 10, 'layer2', act=tf.identity) 





# 计算 交 义 灶 并 定义 生成 交 义 灶 监 控 日 志 的 操作 。 
with tf.name_scope('cross _ entropy'): 
cross_entropy = tf.reduce mean( 
tf.nn.softmax_cross_entropy_ with _ logits(y, y_)) 


tf.scalar_summary('cross entropy', cross_entropy) 


with tf.name_scope('train'): 


train_step = tf.train.AdamOptimizer(0.001).minimize(cross 





# 计算 模型 在 当前 给 定数 据 上 的 正确 率 ， 并 定义 生成 正确 率 监控 日 志 的 操作 。 如 果 


在 sess.run 


区 # 时 给 定 的 数据 是 训练 batch， 那 么 得 到 的 正确 率 就 是 在 这 个 训练 batch 上 的 正确 
率 ; 如 果 


# 给 定 的 数据 为 验证 或 者 测试 数据 ， 那 么 得 到 的 正确 率 就 是 在 当前 模型 在 验证 或 者 








测试 数据 上 
# 的 正确 率 。 
with tf.name_scope('accuracy'): 
with tf.name_scope('correct prediction'): 
correct_prediction = tf.equal(tf.argmax(y, 1), tf.arg 
with tf.name_scope('accuracy' ) : 
accuracy = tf.reduce_mean( 
tf.cast(correct prediction, tf.float32)) 


tf.scalar_summary('accuracy', accuracy) 


# 和 TensorFlow 中 其 他 操作 类 似 ，tf.scalar_summary、 
tf.histogram_ summary 


# 和 tf.image _summary 函 数 都 不 会 立即 执行 ， 需 要 通过 sess .run 来 明确 调用 这 


# 因为 程序 中 定义 的 写 日 志 操 作 比 较 多 ， 一 一 调用 非常 麻烦 ， 所 以 TensorFlow 提 
# tf,merge_all summaries 函 数 来 整理 所 有 的 日 志 生 成 操作 。 在 TensorFlow 
程序 执行 


# 的 过 程 中 只 需要 运行 这 个 操作 就 可 以 将 代码 中 定义 的 所 有 日 志 生成 操作 执行 一 
次 ， 从 而 将 所 


# 有 日 志 写 入 文件 。 


merged = tf.merge all summaries() 


with tf.Session() as sess: 
# 初始 化 写 日 志 的 writer， 并 将 当前 TensorFlow 计 算 图 写 入 日 志 。 
summary_writer = tf.train.Summarywriter(SUMMARY_DIR, sess 


tf.initialize all variables().run() 


for i in range(TRAIN_STEPS ) : 
xs, ys = mnist,train.next_batch(BATCH_SIZE ) 
运行 训练 步骤 以 及 所 有 的 日 志 生 成 操作 ， 得 到 这 次 运行 的 日 志 。 
summary, _ = sess.run([merged, train_stepl], 
feed dict={x: xs, y_: ys}) 
# 将 所 有 日 志 写 入 文件 ，TensorBoard 程 序 就 可 以 拿 到 这 次 运行 所 对 应 


summary_writer.add_ summary(summary, i) 


summary_writer.close() 


Ane 2—— 0 Ma < 


tf.app.run() 








从 上 面 的 程序 可 以 看 出 ， 除 了 GRAPHS 之 外 ，Tensorboard 中 的 每 一 栏 对 应 了 
TensorFlow 中 一 种 日 志 生 成 函数 ， 表 9-1 总 结 了 这 个 对 应 关系 。 











表 9-1 TensorFlow 日 志 生 成 函数 与 TensorBoard 界 面 栏 对 应 关系 。 





TensorFlow 日 志 生 成 函数 TensorBoard 界 面 ”展示 内 容 
栏 


tf.scalar_summary EVENTS TensorFlow 中 标量 


(scalar) 监控 数据 随 着 迭 
代 进 行 的 变化 趋势 。 图 9-18 
中 展示 了 当前 模型 在 训练 
bacth 上 的 正确 率 随 着 迭代 进 
行 的 变化 趋势 。 
tf.image_summary IMAGES TensorFlow 中 使 用 的 
图 片 数据 。 这 一 栏 一 般 用 于 可 
视 化 当前 使 用 的 训练 /测试 图 

















片 。 图 9-19 中 展示 了 例 程序 


tf.audio_summary AUDIO TensorFlow 中 使 用 的 
音频 数据 。 
tf.histogram_summary HISTOGRAMS TensorFlow 中 张 量 分 


布 监控 数据 随 着 迭代 轮 数 的 变 
化 趋势 。 图 9-20 中 展示 了 神 
经 网 络 参数 取 值 分 布 随 着 迭代 
进行 的 变化 趋势 。 


运行 上 面 的 样 例 程 序 并 使 用 9 .1 节 中 介绍 的 方式 启动 TensorBoard， 可 以 看 到 如 图 9-16 
所 示 的 界面 。 在 这 个 页 面 上 有 4 组 不 同 的 监控 指标 ， 这 些 指标 都 是 样 例 程 序 中 通过 
tf.scalar_summary 函 数 生成 的 。 和 变量 的 命名 空间 类 似 ，TensorBoard 也 会 根据 监 
控 指 标的 名 称 进行 分 组 。 从 图 9-17 中 可 以 看 到 ， 名 称 为 nean 的 栏目 下 有 4 组 不 同 的 监控 
指标 。 这 4 个 不 同 的 指标 都 以 mean 开 头 ， 并 通过 斜 线 “/ 划 分 不 同 的 命名 空间 。 不 过 和 
TensorFlow 计 算 图 可 视 化 结果 不 同 的 是 ，EVENTS 栏 只 会 对 最 高 层 的 命名 空间 进行 整 





合 ， 单 击 展开 后 将 看 到 该 命名 空间 下 的 所 有 监控 指标 。 
































cross entopy 


Merviayer | /biases mesmayer1/meghts mesrvlayer2/blases meaiayer2/meghts 


























图 9-17 展开 标量 监控 页 面 中 的 监控 内 容 后 得 到 的 页 面 























La 
在 每 一 个 监控 指标 的 左下 角 有 一 个 小 方 框 “ 和 和 “， 单 击 这 个 方 框 可 以 得 到 放大 后 的 图 
片 。 放 大 后 的 效果 如 图 9-18 所 示 。 再 单 击 一 次 这 个 小 方 框 可 以 将 放大 后 的 图 表 缩 小 。 在 


训练 神经 网 络 时 ， 通 过 TensorBoard 监 控 神 经 网 络 中 变量 取 值 的 变化 、 模 型 在 训练 
batch 上 的 损失 函数 大 小 以 及 学 习 率 的 变化 等 信息 可 以 更 加 方便 地 掌握 模型 的 训练 情况 。 








meanlayerl/weghts Meslayer2/biases mean/layer /weghts 

















图 9-18 展开 某 一 项 监控 标量 时 的 放大 图 


图 9-19 展 示 了 通过 TensorBoard 可 视 化 当前 轮训 练 使 用 的 图 像 信 息 。 通 过 这 个 界面 可 以 
大 致 看 出 数据 随机 打 乱 的 效果 。 因 为 TensorFLow 程 序 和 TensorBoard 可 视 化 界面 可 以 
同时 运行 ， 所 以 从 TensorBoard 上 可 以 实时 看 到 TensorFlow 程 序 中 最 新 使 用 的 训练 或 


者 测试 图 像 。 


























图 9-19 通过 TensorBoard 可 视 化 训练 图 像 


TensorBoard 最 后 一 栏 提供 了 对 张 量 取 值 分 布 的 可 视 化 界面 。 通 过 这 个 界面 ， 可 以 直观 
地 观察 到 不 同 层 神经 网 络 中 参数 的 取 值 变化 。 








layer? 








图 9-20 通过 TensorBoard 可 视 化 张 量 取 值 分 布 效果 图 
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在 本 章 中 介绍 了 TensorFlow 的 可 视 化 工具 TensorBoard。TensorBoard 是 
TensorFlow 自 带 的 工具 ， 不 需要 额外 的 安装 过 程 。 虽 然 TensorBoard 和 TensorF1Low 
运行 在 不 同 的 进程 中 ， 但 是 TensorBoard 会 实时 读 取 TensorFlow 程 序 输出 的 日 志文 件 
从 而 获取 最 新 的 TensorFlow 程 序 运行 状态 。 通 过 TensorBoard， 一 方面 可 以 更 好 地 了 
解 TensorFlow 计 算 图 的 结构 以 及 每 个 TensorFlow 计 算 节 点 在 运行 时 的 时 间 、 内 存 消 
耗 。 另 一 方面 也 可 以 通过 TensorBoard 可 视 化 神经 网 络 模型 训练 过 程 中 各 种 指标 的 变化 
趋势 ， 直 观 地 了 解 神经 网 络 的 训练 情况 。 
































(1) 使 用 --port 参 数 可 以 改变 启动 服务 的 端 














(2)_ “+” 号 会 在 鼠标 移动 到 这 个 节点 时 显示 在 节点 的 右上 角 。 
































(3) 注意 这 里 “Variable” 表 示 名 称 为 Variable 的 变量 ， 而 不 是 所 有 神经 网 络 中 的 参数 。 在 样 例 程 序 中 ， 名 称 为 
Variable 的 变量 是 存储 训练 迄 代 轮 数 的 变量 。 


第 10 章 TensorFlowi 计 算 加 速 


在 前 面 的 章节 中 介绍 了 使 用 TensorF1Low 实 现 各 种 深度 学 习 的 算法 。 然 而 要 将 深度 学 习 应 
用 到 实际 问题 中 一 个 非常 大 的 问题 在 于 训练 深度 学 习 模 型 需要 的 计算 量 太 大 。 比 如 要 将 

第 6 章 中 介 绍 的 Inception- v3 模型 在 单机 上 训练 到 78% 的 正确 率 需 要 将 近 半 年 的 时 间 鱼 
; 这 样 的 训 练 速度 是 完全 无 法 应 用 到 实际 生产 中 的 。 为 了 加 速 训 练 过 程 ， 本 章 将 介绍 如 何 
通过 TensorFlow 利 用 GPU 或 /和 分 布 式 计算 进行 模型 训练 。 


首先 ， 在 10 ,1 节 中 将 介绍 如 何在 TensorFLow 中 使 用 单个 GPU 进行 计算 加 速 ， 也 将 介绍 
生成 TensorFlow 会 话 (tf.Session) 时 的 一 些 常用 参数 。 通 过 这 些 参数 可 以 使 调试 更 
加 方便 而 且 程序 的 可 扩展 性 更 好 。 然 而 ， 在 很 多 情况 下 ， 单 个 GPU 的 加 速效 率 无 法 满足 训 

































































练 大 型 深度 学 习 模型 的 计算 量 需 求 ， 这 时 将 需要 利用 更 多 的 计算 资源 。 为 了 同时 利用 多 个 
GPU 或 者 多 台 机 器 ，106 ,2 节 中 将 介绍 训练 深度 学 习 模 型 的 并 行 方式 。 然 后 ，10 .3 节 将 介 
绍 如 何在 一 台 机 器 的 多 个 GPU 上 并 行 化 地 训练 深度 学 习 模型 。 在 这 一 节 中 也 将 给 出 具体 的 
TensorFLow 样 例 程序 来 使 用 多 GPU 训练 模型 ， 并 比较 并 行 化 效率 提升 的 比率 。 最 后 在 
10 .4 市 中 将 介绍 分 布 式 TensorF1ow， 以 及 如 何 通 过 分 布 式 TensorF1ow 训 练 深度 学 习 
模型 。 在 这 一 节 中 将 给 出 具体 的 TensorFlow 样 例 程序 来 实现 不 同 的 分 布 式 深度 学 习 训 练 
模式 。 昌 然 TensorFlow 可 以 支持 分 布 式 深度 学 习 模 型 训练 ， 但 是 它 并 不 提供 集群 创建 、 
管理 等 功能 。 为 了 更 方便 地 使 用 分 布 式 TensorFlow，10.4 节 中 将 介绍 才 云 科技 基于 
Kubernetes 容 器 云 平 台 搭 建 的 分 布 式 TensorFlow 系 统 。 


10.1 TensorFlow 使 用 GPU 


TensorFlow 程 序 可 以 通过 tf .device 函 数 来 指定 运行 每 一 个 操作 的 设备 ， 这 个 设备 可 
以 是 本 地 的 CPU 或 者 GPU， 也 可 以 是 某 一 台 远 程 的 服务 器 。 但 在 本 节 中 只 关心 本 地 的 设 
备 。TensorF1Low 会 给 每 一 个 可 用 的 设备 一 个 名 称 ，tf device 函数 可 以 通过 设备 的 名 
称 来 指定 执行 运算 的 设备 。 比 如 CPU 在 TensorFlow 中 的 名 称 为 /cpu:0。 在 默认 情况 
下 ， 即 使 机 器 有 多 个 CPU，TensorF1Low 也 不 会 区 分 它们 ， 所 有 的 CPU 都 使 用 /cpu:9 作 
为 名 称 。 而 一 台 机 器 上 不 同 GPU 的 名 称 是 不 同 的 ， 第 n 个 GPU 在 TensorFlow 中 的 名 称 
为 /gpu:n。 比 如 第 一 个 GPU 的 名 称 为 /gpu:0， 第 二 个 GPU 名 称 为 /gpu:1， 以 此 类 推 。 


TensorFlow 提 供 了 一 个 快捷 的 方式 来 查看 运行 每 一 个 运算 的 设备 。 在 生成 会 话 时 ， 可 以 
通过 设置 lo0g_device_placement 参 数 来 打印 运行 每 一 个 运算 的 设备 。 下 面 的 程序 展示 
了 如 何 使 用 log_device_placement 这 个 参数 。 
































































































































import tensorflow as tf 


a = tf.constant([1.0, 2.0, 3.0], shape=[3], name='a') 

b = tf.constant([1.0, 2.0, 3.0], shape=[3], name='b') 

GE Go lo 

# 通过 1og_device_placement 参 数 来 输出 运行 每 一 个 运算 的 设备 。 

sess = tf.Session(config=tf.ConfigProto(log_ device placement= 


print sess.run(c) 


在 没有 GPU 的 机 器 上 运行 以 上 代码 可 以 得 到 以 下 输出 : 


Device mapping: no known devices. 


add: /job:localhost/replica:0/task:0/cpu:0 
b: /job:localhost/replica:0/task:0/cpu:0 


a: /job:localhost/replica:0/task:0/cpu:0 


在 以 上 代码 中 ，TensorFlow 程 序 生成 会 话 时 加 入 了 参数 

log_device_placement=True， 所 以 程序 会 将 运行 每 一 个 操作 的 设备 输出 到 屏幕 。 于 

是 除了 可 以 看 到 最 后 的 计算 结果 之 外 ， 还 可 以 看 到 类 似 “add: 

/job:localhost/replica:0/task:0/cpu:0” 这 样 的 输出 。 这 些 输出 显示 了 执行 每 

0 比如 加 法 操作 add 是 通过 CPU 来 运行 的 ， 因 为 它 的 设备 名 称 中 包含 
/cpu:0。 























在 配置 好 GPU 环境 的 TensorFlow 中 ” 鱼 - 一 ， 如 果 操 作 没 有 明确 地 指定 运行 设备 ， 那 么 
TensorF1Low 会 优先 选择 GPU。 比 如 将 以 上 代码 在 亚马逊 (Amazon Web Services, 
AwS) 的 g2.8xlarge 实 例 上 运行 时 ， 会 得 到 以 下 运行 结果 。 




















Device mapping: 


/job:localhost/replica:0/task:0/gpu:0 - 


> device: 0, name: GRID K520, pci bus id: 0000:00:03.0 


~ 


/job:localhost/replica:0/task:0/gpu:1 - 


> device: 1, name: GRID K520, pci bus id: 0000:00:04.0 


~ 


/job:localhost/replica:0/task:0/gpu:2 - 


> device: 2, name: GRID K520, pci bus id: 0000:00:05.0 


~ 


/job:localhost/replica:0/task:0/gpu:3 - 


> device: 3, name: GRID K520, pci bus id: 0000:00:06.0 


~ 


add: /job:localhost/replica:0/task:0/gpu:0 


b: /job:localhost/replica:0/task:0/gpu:0 


a: /job:localhost/replica:0/task:0/gpu:0 


ey 














从 上 面 的 输出 可 以 看 到 在 配置 好 GPU 环 境 的 TensorFlow 中 ，TensorFlow 会 自动 优先 将 
运算 放置 在 G6PU 上 。 不 过 ， 尽 管 g2 .8xlarge 实 例 有 4 个 GPU， 在 默认 情况 下 ， 
TensorFlow 只 会 将 运算 优先 放 到 /gpu:0 上 。 于 是 可 以 看 见 在 上 面 的 程序 中 ， 所 有 的 运 
算 都 被 放 在 了 /gpu :0 上。 如 果 需 要 将 某 些 运算 放 到 不 同 的 GPU 或 者 CPU 上 ， 就 需要 通过 
tf., device 来 手工 指定 。 下 面 的 程序 给 出 了 一 个 通过 tf . device 手工 指定 运行 设备 的 样 
例 。 









































import tensorflow as tf 





# 通过 tf .device 将 运算 指定 到 特定 的 设备 上 。 
with tf.device('/cpu:0'): 
a = tf.constant([1.0, 2.0, 3.0], shape=[3], name='a') 
b = tf.constant([1.0, 2.0, 3.0], shape=[3], name='b') 
with tf.device('/gpu:1'): 


ca 


sess = tf.Session(config=tf.ConfigProto(log_ device placement= 


print sess.run(c) 


在 AWS g2.8xlarge 实 例 上 运行 上 述 代 码 可 以 得 到 以 下 结果 : 
Device mapping: 


/job:localhost/replica:0/task:0/gpu:0 - 
> device: 0, name: GRID K520, pci bus id: 0000:00:03.0 


/job:localhost/replica:0/task:0/gpu:1 - 


> device: 1, name: GRID K520, pci bus id: 0000:00:04.0 


/job:localhost/replica:0/task:0/gpu:2 - 


> device: 2, name: GRID K520, pci bus id: 0000:00:05.0 


/job:localhost/replica:0/task:0/gpu:3 - 


> device: 3, name: GRID K520, pci bus id: 0000:00:06.0 


add: /job:localhost/replica:0/task:0/gpu:1 
b: /job:localhost/replica:0/task:0/cpu:0 
a: /job:localhost/replica:0/task:0/cpu:0 


ey 





在 以 上 代码 中 可 以 看 到 生成 常量 a 和 b 的 操作 被 加 载 到 了 CPU 上 ， 而 加 法 操作 被 放 到 了 第 二 


个 GPU”/gpu:1” 上 。 在 TensorFlow 中 ， 不 是 所 有 的 操作 都 可 以 补 放 在 GPU 上 ， 如 果 强 ， 

















行将 无 法 放 在 GPU 上 的 操作 指定 到 GPU 上 ， 那 么 程序 将 会 报错 。 以 下 代码 给 出 了 一 个 报错 


的 检 





F 例 。 





import tensorflow as tf 


# 在 CPU 上 运行 tf .Variable 


a_cpu = tf.Variable(0, name="a_cpu") 
with tf.device('/gpu:0'): 
# 将 tf.Variable 强 制 放 在 GPU 上 。 


a_gpu = tf.Variable(0, name="a_gpu") 


sess = tf.Session(config=tf.ConfigProto(log_ device placement= 


sess.run(tf.initialize _ all variables()) 





运行 上 面 的 程序 将 会 报 出 以 下 错误 : 
tensorflow.python.framework.errors.InvalidArgumentError: Cann 
Colocation Debug Info: 

Colocation group had the following types and devices: 
Identity: CPU 

Assign: CPU 

Variable: CPU 


[[Node: a gpu = Variable[container="", dtype=DT_INT32, shape= 
[], shared name="", _device="/device:GPU:0"]()]1] 


不 同 版 本 的 TensorFlow 对 GPU 的 支持 不 一 样 ， 如 果 程 序 中 全 部 使 用 强制 指定 设备 的 方式 
会 降低 程序 的 可 移植 性 。 在 TensorFlow 的 kernel 令 一 中 定义 了 哪些 操作 可 以 跑 在 GPU 
上 。 比 如 可 以 在 variable_ops .cc 程序 中 找到 以 下 定义 。 











# define REGISTER_ GPU_KERNELS(type) 
REGISTER_ KERNEL_ BUILDER( 


Name ("Variable").Device(DEVICE GPU).TypeConstraint<type> 
("dtype"),、\ 


VariableO0p); 


TF_CALL_GPU_NUMBER_TYPES(REGISTER_GPU_KERNELS ) ， 


在 这 段 定 义 中 可 以 看 到 GPU 只 在 部 分 数据 类 型 上 支持 tf .Variable 操 作 。 如 果 在 








TensorFlow 代 码 库 中 搜索 调用 这 段 代 码 的 宏 TF_CALL_GPU_NUMBER_TYPES， 可 以 发 
现在 GPU 上 ，tf.,Variable 操 作 只 文 持 实数 型 (float16、float32 和 double ) 的 参 
数 。 而 在 报错 的 样 例 代码 中 给 定 的 参数 是 整数 型 的 ， 所 以 不 支持 在 GPU 上 运行 。 为 避免 这 
个 问题 ，TensorFlow 在 生成 会 话 时 可 以 指定 allow_soft_placement 参 数 。 当 











allow_soft -placement 参 数 设置 为 True 时 ， 如 果 运 算 无 法 由 























GPU 执行 ， 那 么 


TensorFlow 会 自动 将 它 放 到 CPU 上 执行 。 以 下 代码 给 出 了 一 个 使 用 


allow_soft_pJacement 人 参数 的 村 


F 例 。 





import tensorflow as tf 


a_cpu = tf.Variable(0, 


name="a_cpu") 


with tf.device('/gpu:0'): 


a_gpu = tf.Variable(0, 


name="a_gpu") 


# 通过 allow_soft_placement 参 数 自动 将 无 法 放 在 GPU 上 的 操作 放 回 CPU 上 。 


sess = tf.Session(config=tf.ConfigProto( 


allow_ soft_placement=True, log_device_ 


sess.run(tf.initialize all variables()) 


运行 上 面 这 段 程序 可 以 得 到 下 面 的 结果 : 


Device mapping: 


placement=True)) 


/job:localhost/replica:0/task:0/gpu:0 - 
> device: 0, name: GRID K520, pci bus id: 0000:00:03.0 


/job:localhost/replica:0/task:0/gpu:1 - 
> device: 1, name: GRID K520, pci bus id: 0000:00:04.0 


/job:localhost/replica:0/task:0/gpu:2 - 
> device: 2, name: GRID K520, pci bus id: 0000:00:05.0 


/job:localhost/replica:0/task:0/gpu:3 - 


> device: 3, name: GRID K520, pci bus id: 0000:00:06.0 
a_gpu: /job:1localhost/replica:0/task:0/cpu:0 
a_gpu/read: /job:localhost/replica:0/task:0/cpu:0 
a_gpu/Assign: /job:localhost/replica:0/task:0/cpu:0 
init/NoOp_1: /job:localhost/replica:0/task:0/gpu:0 
a_cpu: /job:1localhost/replica:0/task:0/cpu:0 
a_cpu/read: /job:localhost/replica:0/task:0/cpu:0 
a_cpu/Assign: /job:localhost/replica:0/task:0/cpu:0 
init/NoOp: /job:localhost/replica:0/task:0/gpu:0 
init: /job:localhost/replica:0/task:0/gpu:0 
a_gpu/initial value: /job:localhost/replica:0/task:0/gpu:0 
a_cpu/initial value: /job:localhost/replica:0/task:0/cpu:0 

从 输出 的 目 志 中 可 以 看 到 在 生成 变量 a_gpu 时 ， 无 法 放 到 GPU 上 的 运算 被 自动 调整 


到 了 CPU 上 (比如 a_gpu 和 a_gpu/read) ， 而 可 以 被 GPU 执行 的 命令 “〈 比 如 
a_gpu/initial value) 依旧 由 GPU 执行 





虽然 GPU 可 以 加 速 TensorF1Low 的 计算 ， 但 一 般 来 说 不 会 把 所 有 的 操作 全 部 放 在 GPU 上 。 
一 个 比较 好 的 实践 是 将 计算 密集 型 的 运算 放 在 GPU 上 ， 而 把 其 他 操作 放 到 CPU 上 。GPU 是 
机 器 中 相对 独立 的 资源 ， 将 计算 放 入 或 者 转 出 GPU 都 需要 额外 的 时 间 。 而 且 GPU 需 要 将 计 
算 时 用 到 的 数据 从 内 存 复 制 到 GPU 设备 上 ， 这 也 需要 额外 的 时 间 。TensorFLow 可 以 自动 
完成 这 些 操作 而 不 需要 用 户 特别 处 理 ， 但 为 了 提高 程序 运行 的 速度 ， 用 户 也 需要 尽量 将 相 
关 的 运算 放 在 同一 个 设备 上 。 


10.2 深度 学 习 训 练 并 行 模式 


TensorFlow 可 以 很 容易 地 利用 单个 GPU 加 速 深度 学 习 模 型 的 训练 过 程 ， 但 要 利用 更 多 的 
GPU 或 者 机 器 ， 需 要 了 解 如 何 并 行 化 地 训练 深度 学 习 模 型 。 常 用 的 并 行 化 深度 学 习 模 型 训 
练 方式 有 两 种 ， 同 步 模式 和 异步 模式 。 本 节 中 将 介绍 这 两 种 模式 的 工作 方式 及 其 优 劣 。 


为 帮助 读者 理解 这 两 种 训练 模式 ， 本 市 首先 简单 回顾 一 下 如 何 训练 深度 学 习 模 型 。 图 10- 
1 展示 了 深度 学 习 模型 的 训练 流程 图 。 深 度 学 习 模型 的 训练 是 一 个 碗 代 的 过 程 。 在 每 一 轮 
和 欠 代 中 ， 前 向 传播 算法 会 根据 当前 参数 的 取 值 计 算出 在 一 小 部 分 训练 数据 上 的 预测 值 ， 然 






























































































































































后 反问 传播 算法 再 根据 损失 函数 计算 参数 的 梯度 并 更 新 参数 。 在 并 行 化 地 训练 深度 学 习 模 
型 时 ， 不 同 设备 〈GPU 或 CPU) 可 以 在 不 同 训练 数据 上 运行 这 个 迭代 的 过 程 ， 而 不 同 并 行 





模式 的 区 别 在 于 不 同 的 参数 更 新 方式 。 
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图 10-1 深度 学 习 模型 训练 流程 图 




















图 10-2 展 示 了 异步 模式 的 训练 流程 图 。 从 图 10-2 中 可 以 看 到 ， 在 每 一 轮 迄 代 时 ， 不 同 设 
备 会 读 取 参 数 最 新 的 取 值 ， 但 因为 不 同 设备 读 取 参 数 取 值 的 时 间 不 一 样 ， 所 以 得 到 的 值 也 
有 可 能 不 一 样 。 根 据 当前 参数 的 取 值 和 随机 获取 的 一 小 部 分 训练 数据 ， 不 同 设备 各 自 运行 





反问 传播 的 过 程 并 独立 地 更 新 参数 。 可 以 简单 地 认为 异步 模式 就 是 单机 模式 复 4 





岂 了 多 份 ， 





每 一 份 使 用 不 同 的 训练 数据 进行 训练 。 在 异步 模式 下 ， 不 同 设备 之 间 是 完全 独立 的 。 
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图 10-2 异步 模式 深度 学 习 模 型 训练 流程 图 


然而 使 用 和 借 步 模式 训练 的 深度 学 习 模 瑾 有 可 能 无 法 达到 较 优 的 训练 结果 。 图 10 - 3 中 给 出 
了 一 个 具体 的 样 例 来 说 明 异 步 模式 的 问题 页 机 加 色 曲线 展 呆 了 模型 的 扣 失 函 数 ， 黑 色 小 
球 表 示 了 在 t 。 时 刻 参数 所 对 应 的 损失 函数 的 大 小 。 假 设 两 个 设备 q 。 和 oa ,在 时 间 t 。 同 
时 读 取 了 参数 的 取 值 ， 那 么 设备 q 。 和 d ， 计 算出 来 的 梯度 都 会 将 小 黑 球 向 左 移动 。 假 设 
在 时 间 t , 设备 q 。 已 经 完成 了 反 向 传播 的 计算 并 更 新 了 参数 ， 修 改 后 的 参数 处 于 图 10-3 
中 小 灰 球 的 位 置 。 然 而 这 时 的 设备 q ， 并 不 知道 参数 已 经 被 更 新 了 ， 所 以 在 时 间 t , 时 ， 
设备 d ，, 会 继续 将 小 球 向 左 移动 ， 使 得 小 球 的 位 置 达到 图 19- 3 中 小 白 球 的 地 方 。 从 图 19- 
3 中 可 以 看 到 ， 当 参 数 被 调整 到 小 白 球 的 位 置 时 ， 将 无 法 达到 最 优点 。 
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图 10-3 异步 模式 训练 深度 学 习 模 型 存在 的 问题 示意 图 


为 了 避免 更 新 不 同步 的 问题 ， 可 以 使 用 同步 模式 。 在 同步 模式 下 ， 所 有 的 设备 同时 读 取 参 
数 的 取 值 ， 并 且 当 反 向 传播 算法 完成 之 后 同步 更 新 参数 的 取 值 。 单 个 设备 不 会 单独 对 参数 
进行 更 新 ， 而 会 等 等 所 有 设备 都 完成 反 疝 传播 之 后 青 统一 更 新 参数 外 -。 图 10 -4 展示 了 同 
步 模式 的 训练 过 程 。 从 图 16-4 中 可 以 看 到 ， 在 每 一 轮 适 代 时 ， 不 同 设备 首先 统一 读 取 当 
前 参数 的 取 值 ， 并 随机 获取 一 小 部 分 数据 。 然 后 在 不 同 设备 上 运行 反 向 传播 过 程 得 到 在 各 
自 训练 数据 上 参数 的 梯度 。 注 意 虽 然 所 有 设备 使 用 的 参数 是 一 致 的 ， 但 是 因为 训练 数据 不 
同 ， 所 以 得 到 参数 的 梯度 就 可 能 不 一 样 。 当 所 有 设备 完成 反 向 传播 的 计算 之 后 ， 需 要 计算 
出 不 同 设 备 上 参数 梯度 的 平均 值 ， 最 后 再 根据 平均 值 对 参数 进行 更 新 。 
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图 10-4 同步 模式 深度 学 习 模型 训练 流程 图 


步 模式 中 存在 的 参数 更 新 间 题 ， 然 而 同步 模式 的 效率 却 低 于 异步 模式 。 














在 同步 模式 下 ， 每 一 轮 欠 代 都 需要 设备 统一 开始 、 统 一 结束 。 如 果 设 备 的 运行 速度 不 一 
致 ， 那 么 每 一 轮训 练 都 需要 等 待 最 慢 的 设备 结束 才能 开始 更 新 参数 ， 于 是 很 多 时 间 将 被 伦 

















和 等 待 上 。 虽 然 理 


论 上 异步 模式 存在 缺陷 ， 但 因为 训练 深度 学 习 模 型 时 使 用 的 随机 梯度 下 











降 本 身 就 是 梯度 下 降 的 一 个 近似 解法 ， 而 且 即 使 是 梯度 下 降 也 无 法 保证 达到 全 局 最 优 值 ， 
所 以 在 实际 应 用 中 ， 在 相同 时 间 内 ， 使 用 异步 模式 训练 的 模型 不 一 定 比 同步 模式 差 。 所 以 
这 两 种 训练 模式 在 实践 中 都 有 非常 广泛 的 应 用 。 


10.3 多 GPU 并 行 


在 10 ,2 节 中 介绍 了 常用 的 分 布 式 深度 学 习 模型 训练 模式 。 这 一 节 将 给 出 具体 的 
TensorFlow 代 码 ， 在 一 台 机 器 的 多 个 GPU 上 并 行 训练 深度 学 习 模 型 。 因 为 一 般 来 说 一 台 
机 器 上 的 多 个 GPU 性 能 相似 ， 所 以 在 这 种 设置 下 会 更 多 地 采用 同步 模式 训练 深度 学 习 模 
型 。 下 面 将 给 出 县 体 的 代码 ， 在 多 G6PU 上 训练 深度 学 习 模 型 解决 MNIST 问 题 。 本 节 的 样 例 
代码 将 沿用 5 ,5 节 中 使 用 的 代码 框架 ， 并 且 使 用 5.5 节 中 给 出 的 mnist_inference.py 
程序 来 完成 神经 网 络 的 前 向 传播 过 程 。 以 下 代码 给 出 了 新 的 神经 网 络 训练 程序 


mnist_multi_ gpu_train.py。 


* 


# 


coding: utf-8 


























* 


from datetime import datetime 


import os 


Import time 


Import tensorflow as tf 


import mnist_inference 





# 定义 训练 神经 网 络 时 需要 用 到 的 配置 。 这 些 配 置 与 5.5 节 中 定义 的 配置 类 似 。 
BATCH_SIZE = 100 

LEARNING_RATE_BASE = 0.001 

LEARNING_RATE_DECAY = 0.99 

REGULARAZTION_RATE = 0.0001 

TRAINING_STEPS = 1000 

MOVING_AVERAGE_DECAY = 0.99 


N_GPU = 4 


# 定义 日 志和 模型 输出 的 路 径 。 
MODEL_SAVE_PATH = "/path/to/logs_and models/" 


MODEL_NAME = "model.ckpt" 





# 定义 数据 存储 的 路 径 。 因 为 需要 为 不 同 的 GPU 提供 不 同 的 训练 数据 ， 所 以 通过 


placerholder 


# 的 方式 就 需要 手动 准备 多 份 数 据 。 为 了 方便 训练 数据 的 获取 过 程 ， 可 以 采用 第 7 
章 中 介绍 的 输 


# 入 队列 的 方式 从 TFRecord 中 读 取 数据 。 于 是 在 这 里 提供 的 数据 文件 路 径 为 将 
MNIST 训 练 数据 


# 转化 为 TFRecords 格 式 之 后 的 路 径 。 如 何 将 MNIST 数 据 转 化 为 TFRecord 格 式 在 
第 7 章 中 有 


# 详细 介绍 ， 这 里 不 再 更 述 。 


DATA_PATH = "/path/to/data.tfrecords" 


# 定义 输入 队列 得 到 训练 数据 ， 具 体 细 节 可 以 参考 第 7 章 。 
def get_input(): 
filename _ queue = tf.train.string input_producer([DATA_PATH]) 
reader = tf.TFRecordReader() 
_, Serialized example = reader.read(filename_queue) 
# 定义 数据 解析 格式 。 
features = tf.parse_ single example( 
serialized example, 
features={ 
'image_raw': tf.FixedLenFeature([], tf.string), 
'pixels': tf.FixedLenFeature([], tf.int64), 
‘label': tf.FixedLenFeature([], tf.int64), 
jy 
# 解析 图 片 和 标签 信息 。 
decoded_ image = tf.decode raw(features['image_raw'], tf.uint8 
reshaped_image = tf.reshape(decoded image, [784]) 
retyped image = tf.cast(reshaped image, tf.float32) 


label = tf.cast(features['label'], tf.int32) 


# 定义 输入 队列 并 返回 。 


min_after_dequeue = 10000 


capacity = min_after_dequeue + 3 * BATCH_SIZE 
return tf,train,shuffle_batch( 
[retyped_image, labell], 
batch_ size=BATCH_SIZE, 
capacity=capacity, 


min_after_dequeue=min_after_dequeue) 


# 定义 损失 函数 。 对 于 给 定 的 训练 数据 、 正 则 化 损失 计算 规则 和 命名 空间 ， 计 算 在 
这 个 命名 空间 


网 Ws 之 所 以 需要 给 定 命名 空间 是 因为 不 同 的 GPU 上 计算 得 出 的 正则 化 损 
会 加 入 名 大 


# 10SS 的 集合 ， 如 果 不 通过 命名 空间 就 会 将 不 同 GPU 上 的 正则 化 损失 都 加 进来 。 





def get_ loss(x, y_, regularizer, scope): 
# 沿用 5.5 节 中 定义 的 函数 来 计算 神经 网 络 的 前 向 传播 结 
y = mnist_inference.inference(x, regularizer) 
# 计算 交叉 炳 损失 。 
cross_entropy = tf.reduce mean( 
tf.nn.sparse_ softmax_cross_entropy with logits(y, y_)) 
# 计算 当前 GPU 上 计算 得 到 的 正则 化 损失 。 
regularization loss = tf.add n(tf.get collection('losses', sc 
# 计算 最 终 的 总 损失 。 
loss = cross_entropy + regularization loss 


return loss 


# 计算 每 一 个 变量 梯度 的 平均 值 。 


def average_gradients(tower_ grads ) : 
average_grads = [|] 


# 枚 举 所 有 的 变量 和 变量 在 不 同 GPU 上 计算 得 出 的 梯度 。 














for grad_and_vars in zip(*tower_grads): 
# 计算 所 有 GPU 上 的 梯度 平均 值 。 
grads = [] 
for g, _ in grad and vars : 
expanded g = tf.expand_dims(g, 0) 
grads.append(expanded_g) 


grad = tf.concat(0, grads) 


grad = tf.reduce mean(grad, 0) 


v = grad_and_ vars[01[1] 
grad_and_var = (grad, v) 

# 将 变量 和 它 的 平均 梯度 对 应 起 来 。 
average_grads.append(grad_and_var) 


# 返回 所 有 变量 的 平均 梯度 ， 这 将 被 用 于 变量 更 新 。 





return average_grads 


# 主 训练 过 程 。 
def main(argv=None): 


# 将 简单 的 运算 放 在 CPU 上 ， 只 有 神经 网 络 的 训练 过 程 放 在 GPU 上 。 





with tf.Graph().as default()，tf.device( /cpu:0 ) : 


# 获取 训练 batch。 


x, y_ = get _ input() 


regularizer = tf.contrib.layers.12 regularizer (REGULARAZT 


# 定义 训练 轮 数 和 指数 衰减 的 学 习 率 。 

global_ step = tf.get _ variablel( 
'global step', [], initializer=tf.constant _ initialize 
trainable=False) 

learning_rate = tf.train.exponential decay( 
LEARNING_ RATE_BASE, global step, 60000 / BATCH_SIZE, 


LEARNING_ RATE_DECAY) 


# 定义 优化 方法 。 


opt = tf.train.GradientDescentOptimizer(learning_rate) 


tower_grads = [|] 
# 将 神经 网 络 的 优化 过 程 跑 在 不 同 的 GPU 上 。 
for i in range(N_GPU): 
# 将 优化 过 程 指定 在 一 个 GPU 上 。 
with tf.device('/gpu:%d' % 工 ) : 
with tf.name_scope('GPU %d' % i) as scope: 
cur_loss = get_ loss(x, y_, regularizer, scope 


# 在 第 一 次 声明 变量 之 后 ， 将 控制 变量 重用 的 参数 设置 为 
True。 这 样 可 以 


# 让 不 同 的 GPU 更 新 同一 组 参数 。 注 意 tf,name_scope 函 数 


# tf.get ”Variable 的 命名 空间 。 


tf.get_variable_ scope().reuse variables() 


# 使 用 当前 GPU 计 算 所 有 变量 的 梯度 。 
grads = opt.compute gradients(cur_loss) 


tower_grads.append(grads) 


# 计算 变量 的 平均 梯度 ， 并 输出 到 TensorBoard 日 志 中 。 
grads = average_gradients(tower_ grads ) 
for grad, var in grads : 
if grad is not None: 
tf.histogram _ summary( 


'gradients_on_average/%s' % var.op.name, grad 


# 使 用 平均 梯度 更 新 参数 。 

apply_gradient_ op = opt.apply_gradients( 
grads, global step=global step) 

for var in tf.trainable variables(): 


tf.histogram summary(var.op.name, var) 


# 计算 变量 的 滑动 平均 值 。 
variable averages = tf.train.ExponentialMovingAverage( 
MOVING AVERAGE_DECAY, global step) 


variables_ averages op = variable averages.apply( 


tf.trainable variables()) 


# 每 一 轮 适 代 需 要 更 新 变量 的 取 值 并 更 新 变量 的 滑动 平均 值 。 


train op = tf.group(apply gradient op, variables averages 


saver = tf.train.Saver(tf.all _ variables()) 
Summary op = tf.merge all summaries() 


init = tf.initialize all _ variables() 


# 训练 过 程 。 
with tf.Session(config=tf.ConfigProto( 
allow_ soft_placement=True， 
1og_device_placement=True)) as sess: 
# 初始 化 所 有 变量 并 启动 队列 。 
init.run() 
coord = tf.train.Coordinator() 
threads = tf.train.start_ queue_runners(sess=sess, coo0 
summary_writer = tf.train.Summarywriter( 


MODEL_SAVE_PATH, sess.graph) 


for step in range(TRAINING STEPS): 
# 执行 神经 网 络 训 练 操作 ， 并 记录 训练 操作 的 运行 时 间 。 
start_ time = time.time() 


_, loss value = sess.run([train op, cur_loss]) 


duration = time.time() - start_ time 


# 每 隔 一 段 时 间 展 示 当 前 的 训练 进度 ， 并 统计 训练 速度 。 
if step != 0 and step % 10 == 
# 计算 使 用 过 的 训练 数据 个 数 。 因 为 在 每 一 次 运行 训练 操作 





时 ， 每 一 个 GPU 


# 都 会 使 用 一 个 patch 的 训练 数据 ， 所 以 总 共用 到 的 训练 数 


据 个 数 为 
# batch 大 小 xGPU 个 数 。 
num_examples_per_step = BATCH_SIZE * N_GPU 
# num_examples_per_step 为 本 次 迭代 使 用 到 的 训练 数 
据 个 数 ， 
# duration 为 运行 当前 训练 过 程 使 用 的 时 间 ， 于 是 平均 每 秒 
可 以 处 理 的 训 


# ，” 练 数据 个 数 为 


num_examples_per_step / duration。 


examples_per_sec = num examples_ per_step / du 


# duration 为 运行 当前 训练 过 程 使 用 的 时 间 ， 因 为 在 每 一 个 
训练 过 程 中 ， 


# 每 一 个 GPU 都 会 使 用 一 个 batch 的 训练 数据 ， 所 以 在 单个 
batch 上 的 训 


# 练 所 需要 时 间 为 duration / GPU 个 数 。 


sec_per_batch = duration / N_GPU 


# 输出 训练 信息 。 


format_str = ('step %d, loss = %.2f (%.1f exa 


' Sec; %.3f sec/batch)') 
print(format_str % (step, loss value, 


examples_per_sec, sec 


# 通过 TensorBoard 可 视 化 训练 过 程 。 
summary = sess.run(summary_op) 


summary_writer.add_ summary(summary, step) 


# 每 隔 一 段 时 间 保 存 当 前 的 模型 。 
if step % 1000 == 0 or (step + 1) == TRAINING STE 
checkpoint_path = os.path.join( 
MODEL_SAVE_PATH, MODEL NAME) 


saver.save(sess, checkpoint path, global step 


coord.request_ stop() 


coord.join(threads) 


nam 


tf.app.run() 


在 AWS 的 g2.8xlarge 实 例 上 运行 上 面 这 上 段 程序 可 以 得 到 类 似 下 面 的 结 
step 10, loss = 71.90 (15292.3 examples/sec; 0.007 sec/batch) 


step 20, loss = 37.97 (18758.3 examples/sec; 0.005 sec/batch) 


step 30, loss 


step 40, loss 


step 980, loss 


step 990, loss 


9.54 (16313.3 examples/sec; 0.006 sec/batch) 


11.84 (14199.0 examples/sec; 0.007 sec/batch) 


= 0.66 (15034.7 examples/sec; 0.007 sec/batch) 


= 1.56 (16134.1 examples/sec; 0.006 sec/batch) 


在 AWS 的 g2 .8xlarge 实 例 上 运行 以 上 代码 可 以 同时 使 用 4 个 GPU 训 练 神经 网 络 。 图 10-5 


显示 了 运行 
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10-6 展 示 了 通过 TensorBoard 扎 -可视化 得 到 的 检 


EF 例 代 码 时 不 同 GPU 的 使 用 情况 。 


Every 2.0s: nvidia- 





Driver Version: 367. 


0000:00:03.0 Off 
3770MiB / 4036MiB 


0000:00:04.0 
3770MiB / 4036MiB 
0000:00:05.0 off 
377OMiB / 4036MiB 


0000:00:06.0 
37769MiLB / ”4036MiLB 

















图 10-5 在 AwWS 的 g2.8xlarge 实 例 上 运行 MNIST 样 例 程序 时 GPU 的 使 用 情况 


因为 在 5.5 节 中 定义 的 神经 网 络 规模 比较 小 ， 所 以 在 图 
果 训 练 大 型 的 神经 网 络 模型 ，TensorF1Low 将 会 占 满 所 有 用 到 的 GPU。 

















例 代 码 TensorF1Low 计 算 图 








Volatile Uncorr 。 ECC 


Compute M. 


Default 


---------------------- +----------------------+ 


Default 


3768MiB 
3768MiB 
3768MiB 
3768MiB 








节点 上 的 颜色 代表 了 不 同 的 设备 ， 比 如 黑色 代表 CPU、 日 色 代表 第 一 个 GPU， 等 等 。 











10-5 中 显示 的 GPU 使 用 率 不 高 。 如 


> 其 中 
从 图 





10-5 中 可 以 看 出 ， 训 练 神经 网 络 的 主要 过 程 被 放 到 了 GPU_0、GPU_1、GPU_2 和 GPU_3 
这 4 个 模块 中 ， 而 且 每 一 个 模块 运行 在 一 个 GPU 上 。 对 比 图 10 -5 中 的 TensorFLow 计 算 图 
可 视 化 结果 和 图 10 -4 中 介绍 的 同步 模式 分 布 式 深度 学 习 训 练 流程 图 可 以 发 现 ， 这 两 个 图 
的 结构 是 非常 接近 的 。 
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图 10-6 使 用 








了 4 个 GPU 的 TensorFlow 计 算 图 可 视 化 结果 














通过 调整 参数 N_GPU， 可 以 实验 同步 模式 下 随 着 GPU 个 数 的 增加 训练 速度 的 加 速 比 率 。 
10-7 展 示 了 在 给 出 的 MNIST 样 例 代 码 上 ， 训 练 速度 随 着 GPU 数量 增加 的 变化 趋势 。 从 图 

10-7 中 可 以 看 出 ， 当 使 用 两 个 GPU 时 ， 模 型 的 训练 速度 是 使 用 一 个 GPU 的 1.92 倍 。 也 就 
是 说 当 GPU 数 量 较 小 时 ， 训 练 速度 基本 可 以 随 着 GPU 的 数量 线性 增长 。 岁 10 -8 展示 了 当 

GPU 数量 增多 时 ， 训 练 速度 随 着 GPU 数量 增加 的 加 速 比 。 从 图 10-8 中 可 以 看 出 ， 当 GPU 数 
量 增 加 时 ， 虽 然 加 速 比 不 再 是 线性 ， 但 TensorF1Low 仍 然 可 以 通过 增加 GPU 数量 有 效 地 加 
速 深 度 学 习 模型 的 训练 过 程 。 





相 比 使 用 单个 GPU， 训 练 速度 的 速 比 
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图 10-7 训 
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(此 数据 是 通过 MNIST 档 
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图 10-8 训练 速度 随 着 GPU 数量 增加 的 变化 趋势 ， 此 数据 来 自 谷歌 官方 的 测试 结果 怨 


10 .4 分 布 式 TensorFlow 


通过 多 GPU 并 行 的 方式 可 以 达到 很 好 的 加 速效 果 。 然 而 一 台 机 器 上 能 够 安装 的 GPU 有 限 ， 
要 进一步 提升 深度 学 习 模 型 的 训练 速度 ， 就 需要 将 TensorFlow 分 布 式 运行 在 多 台 机 器 
上 。 本 节 将 介绍 如 何 编 写 以 及 运行 分 布 式 TensorFlow 的 程序 。 首 先 ， 在 10 .4 .1 小 节 中 
将 介绍 分 布 式 TensorFlow 的 工作 原理 ， 并 给 出 最 简单 的 分 布 式 TensorFlow 样 例 程 序 。 
在 这 一 小 节 中 也 将 介绍 不 同 的 TensorFlow 分 布 式 方式 。 然 后 ， 在 10 .4 .2 小 节 中 将 给 出 
两 个 完整 的 TensorFlow 样 例 程 序 来 同步 或 者 异步 地 训练 深度 学 习 模 型 。 最 后 ， 在 

10 .4.3 小 节 中 将 总 结 目 前 原生 态 分 布 式 TensorFLow 中 的 不 足 ， 并 介绍 才 云 科技 
(Caicloud.io) 提供 的 分 布 式 TensorFlow 解 决 方案 (TensorFlow as a 
Service, TaaS) 。 


10.4.1 分 布 式 TensorFlow 原 理 


在 10 .2 节 中 介绍 了 分 布 式 TensorFlow 训 练 深度 学 习 模 型 的 理论 。 本 小 节 将 具体 介绍 如 
何 使 用 TensorFlow 在 分 布 式 集群 中 训练 深度 学 习 模型 。 以 下 代码 展示 了 如 何 创建 一 个 最 
简单 的 TensorFlow 集 群 : 
























































import tensorflow as tf 

c = tf.constant("Hello, distributed TensorFlow!") 
# 创建 一 个 本 地 TensorFlow 集 群 

server = tf.train.Server.create local server() 


# 在 集群 上 创建 一 个 会 话 。 


sess = tf.Session(server.target) 
# 输出 Hello, distributed TensorFlow! 


print sess.run(c) 





a 首先 通过 tf.train.Server.create _local server 函 数 在 本 地 建 
立 了 一 个 只 有 一 台 机 器 的 TensorFlow 集 群 。 然 后 在 该 集群 上 生成 了 一 个 会 话 ， 并 通过 生 
成 的 会 ee Ed Lt i gh 虽然 这 只 是 一 个 单机 集群 ， 但 它 大 致 
反应 了 TensorFlow 集 群 的 工作 流程 。TensorFlow 集 群 通 过 一 系列 的 任务 (tasks) 来 
执行 TensorFlow 计 算 图 中 的 运算 。 一 般 来 说 ， 不 同 任务 跑 在 不 同 机 器 上 。 最 主要 的 例外 
0 不 同 任务 可 以 使 用 同一 台 机 器 上 的 不 同 GPU。TensorFlow 和 集群 中 的 任务 

会 被 聚合 成 工作 (jobs) ， 每 个 工作 可 以 包含 一 个 或 者 多 个 任务 。 比 如 在 训练 深度 学 
3 一 台 运 行 有 反问 传播 的 机 器 是 一 个 任务 ， 而 所 有 运行 反问 传播 机 器 的 集合 是 一 种 
Es 


上 面 的 样 例 代码 是 只 有 一 个 任务 的 集群 。 当 一 个 TensorFlow 集 群 有 多 个 任务 时 ， 需 要 使 
用 tf.train. i 比如 以 下 代码 展示 了 在 本 地 
运行 有 两 个 任务 的 TensorFlow 和 集群 。 第 一 个 任务 的 代码 如 下 : 
























































import tensorflow as tf 


c= tf.constant("Hello from server1!") 


# 生成 一 个 有 两 个 任务 的 集群 ， 一 个 任务 跑 在 本 地 2222 端 口 ， 男 外 一 个 跑 在 本 地 
2223 端 口 。 


Cluster = tf.train.ClusterSpec( 
{"local": ["localhost:2222", "localhost: 2223"]}) 


通过 上 面 生成 的 集群 配置 生成 Server， 并 通过 job_name 和 task_index 指 定 当 
前 所 启动 


# 的 任务 。 因 为 该 任务 是 第 一 个 任务 ， 所 以 task_index 为 0。 


server = tf.train.Server(cluster, job name="local", task_inde 


# 通过 server .target 生 成 会 话 来 使 用 TensorFlow 集 群 中 的 资源 。 设置 
# lo0g_device_placement 可 以 看 到 执行 每 一 个 操作 的 任务 。 


sess = tf.Session( 
server.target, config=tf.ConfigProto(log_device placement=Tru 
print sess.run(c) 


server.join() 


下 面 给 出 了 第 二 个 任务 的 代码 : 


import tensorflow as tf 


c= tf.constant("Hello from server2!") 


# 和 第 一 个 程序 一 样 的 集群 配置 。 集 群 中 的 每 一 个 任务 需要 采用 相同 的 配置 。 
cluster = tf.train.ClusterSpec ( 

{"local": ["localhost:2222", "localhost: 2223"]}) 

# 指定 task_index 为 17， 所 以 这 个 程序 将 在 localhost:2223 启 动 服务 。 

server = tf.train.Server(cluster, job_name="local", task_inde 


# 剩 下 的 代码 都 和 第 一 个 任务 的 代码 一 致 。 





局 动 第 一 个 任务 后 ， 可 以 得 到 类 似 下 面 的 输出 : 


I tensorflow/core/distributed runtime/rpc/grpc_channel.cc:206 
> {localhost:2222, localhost:2223} 


I tensorflow/core/distributed runtime/rpc/grpc_server_l1ib.cc: 
E1123 08:26:06.824503525 12232 tcp_client_ posix.c:173] 


E1123 08:26:08.825022513 12232 tcp_client_posix.c:173] 


I tensorflow/core/common_runtime/simple placer.cc:818|] Const: 
Const: /job:1local/replica:0/task:0/cpu:0 


Hello from server1l! 





从 第 一 个 任务 的 输出 中 可 以 看 到 ， 当 只 启动 第 一 个 任务 时 ， 程 序 会 停 下 来 等 待 第 二 个 任务 
启动 ， 而 且 持 续 输出 failed to connect to 'ipv4:127.0.0.1:2223': socket 
error: connection refused。 当 第 二 个 任务 启动 后 ， 可 以 看 到 从 第 一 个 任务 中 会 输 
出 Hello from server1! 的 结果 。 第 二 个 任务 的 输出 如 下 : 





I tensorflow/core/distributed runtime/rpc/grpc_channel.cc:206 
> {localhost:2222, localhost:2223} 


I tensorflow/core/distributed runtime/rpc/grpc_server_l1ib.cc: 
Const: /job:1local/replica:0/task:0/cpu:0 
I tensorflow/core/common_runtime/simple_ placer.cc:818|] Const: 


Hello from server2! 








值得 注意 的 是 第 二 个 任务 中 定义 的 计算 也 被 放 在 了 设 

备 /job : ie 也 就 是 说 这 个 计算 将 由 第 一 个 任务 来 
执行 。 从 上 面 这 个 样 例 可 以 看 到 ， 通 过 tf.train.Server,target 生 成 的 会 话 可 以 统 
管理 整个 TensorF1Low 集 群 中 的 资源 。 


和 使 用 多 GPU 类 似 ，TensorF1Low 支 持 通过 tf .device 来 指定 操作 运行 在 哪个 任务 上 。 
比如 将 第 二 个 任务 中 定义 计算 的 语句 改 为 以 下 代码 ， 就 可 以 看 到 这 个 计算 将 被 调度 
有 /job:local/replica:0/task:1/cpu:0 上 面 。 





















































with tf.device("/job:local/task:1"): 


c= tf.constant("Hello from server2!") 














在 上 面 的 样 例 中 只 定义 了 一 个 工作 “local”。 但 一 般 在 训练 深度 学 习 模 型 时 ， 会 定义 两 

个 工作 。 一 个 工作 专门 负责 存储 、 获 取 以 及 更 新 变量 的 取 值 ， 这 个 工作 所 包含 的 任务 统称 
为 参数 服务 器 (parameter server，ps) 。 另 外 一 个 工作 负责 运行 反 向 传播 算法 来 获 
取 参 数 梯度 ， 这 个 工作 所 包含 的 任务 统 称 为 计算 服务 器 (worker) 。 下 面 给 出 了 一 个 比 
较 常 见 的 用 于 训练 深度 学 习 模 型 的 TensorFlow 集 群 配置 方法 。 























tf.train.ClusterSpec(t{ 
"worker":; [ 
"tf-worker0O:2222", 
"tf-worker1:2222", 
"tf-worker2:2222" 
]， 
"ps": [ 
"tf-ps0:2222", 


"tf-ps1i:2222" 


是 


使 用 分 布 式 TensorF1Low 训 练 深度 学 习 模型 一 般 有 两 种 方式 。 一 种 方式 叫做 计算 图 内 分 布 
式 (in-graph replication) 。 使 用 这 种 分 布 式 训 练 方式 时 ， 所 有 的 任务 都 会 使 用 一 
个 TensorFlow 计 算 图 中 的 变量 (也 就 是 深度 学 习 模 型 中 的 参数 ) ， 而 只 是 将 计算 部 分 发 
布 到 不 同 的 计算 服务 器 上 。10 ,3 节 中 给 出 的 使 用 多 GPU 样 例 程序 就 是 这 种 方式 。 多 GPU 样 
例 程序 将 计算 复制 了 多 份 ， 每 一 份 放 到 一 个 GPU 上 进行 运算 。 但 不 同 的 GPU 使 用 的 参数 都 
是 在 一 个 TensorFlow 计 算 图 中 的 。 因为 参数 都 是 存在 同一 个 计算 图 中 ， 所 以 同步 更 新 参 
数 比较 容易 控制 。 在 10 ,3 节 中 给 出 的 代码 也 实现 了 参数 的 同步 更 新 。 然 而 因为 计算 图 内 

分 布 式 需要 有 一 个 中 心 节 点 来 生成 这 个 计算 图 并 分 配 计算 任务 ， 所 以 当 数据 量 太 大 时 ， 这 
个 中 心 节点 容易 造成 性 能 瓶颈 。 


另外 一 种 分 布 式 TensorFlow 训 | 练 深度 学 习 模型 的 方式 叫 计算 图 之 间 分 布 式 (between- 
graph replication)〉。 使 用 这 种 分 布 式 方式 时 ， 在 每 一 个 计算 服务 器 上 都 会 创建 一 
个 独立 的 TensorFlow 计 算 图 ， 但 不 同 计算 图 中 的 相同 参数 需要 以 一 种 固定 的 方式 放 到 同 
一 个 参数 服务 器 上 。TensorFlLow 提 供 了 tf,train,replLlica_device_setter 函 数 来 
帮助 完成 这 一 个 过 程 ， 在 19 .4 .2 小 节 中 将 给 出 具体 的 样 例 。 因 为 每 个 计算 服务 器 的 
TensorFlow 计 算 图 是 独立 的 ， 所 以 这 种 方式 的 并 行 度 要 更 高 。 但 在 计算 图 之 间 分 布 式 下 
进行 参数 的 同步 更 新 比较 困难 。 为 了 解决 这 个 问题 ，TensorFlow 提 供 了 
tf.train.SyncReplicas0ptimizer 函 数 来 帮助 实现 参数 的 同步 更 新 。 这 让 计算 图 之 
间 分 布 式 方式 被 更 加 广泛 地 使 用 。 在 10 .4 .2 小 节 中 将 给 出 使 用 计算 图 之 间 分 布 式 的 样 例 
程序 来 实现 异步 模式 和 同步 模式 的 并 行 化 深度 学 习 模 型 训练 过 程 。 


10.4.2 分 布 式 TensorFlow 模 型 训练 
本 小 节 中 将 给 出 两 个 样 例 程 序 分 别 实现 使 用 计算 图 之 间 分 布 式 ‘(Between-graph 





































































































replLication) 完成 分 布 式 深度 学 习 模型 训练 的 异步 更 新 和 同步 更 新 。 第 一 部 分 将 给 出 
使 用 计算 图 之 间 分 布 式 实现 异步 更 新 的 TensorFlow 程 序 。 这 一 部 分 也 会 给 出 具体 的 命令 
行将 该 程序 分 布 式 的 运行 在 一 个 参数 服务 器 和 两 个 计算 服务 器 上 ， 并 通过 TensorBoard 
可 视 化 在 第 一 个 计算 服务 器 上 的 TensorFLow 计 算 图 。 第 二 部 分 将 给 出 计算 图 之 间 分 布 式 
实现 同步 参数 更 新 的 TensorF1Low 程 序 。 同 步 参数 更 新 的 代码 大 部 分 和 异步 更 新 相似 ， 所 
以 在 这 一 部 分 中 将 重点 介绍 它们 之 间 的 不 同 之 处 。 


异步 模式 样 例 程序 


下 面 的 样 例 代码 将 仍然 采用 5.5 节 中 给 出 的 模式 ， 并 复 用 5 .5 了 mnist_inference.py 
程序 中 定义 的 前 向 传播 算法 。 以 下 代码 实现 了 异步 模式 的 分 布 式 神 经 网 络 训练 过 程 。 












































# -*- Coding: utf-8 -*- 


import time 
import tensorflow as tf 


from tensorflow.examples.tutorials.mnist import input_data 


import mnist_inference 


# 和 5.5 节 中 类 似 的 配置 神经 网 络 的 设置 。 
BATCH_SIZE = 100 
LEARNING RATE BASE = 0.01 
LEARNING RATE_ DECAY = 0.99 
REGULARAZTION_ RATE = 0.0001 
TRAINING STEPS = 10000 

# 模型 保存 的 路 径 。 

MODEL_SAVE_PATH = "/path/to/model" 


# MNIST 数 据 路 径 。 


DATA_PATH = "/path/to/data" 


# 通过 十 flags 指 定 运 行 的 参数 。 在 10 .4.1 小 节 中 对 于 不 同 的 任务 (task) 给 出 了 





a 但 这 不 是 一 种 可 扩展 的 方式 。 在 这 一 小 节 中 将 使 用 运行 程序 时 给 出 的 参数 来 配置 
在 不 后 


# 任务 中 运行 的 程序 。 


FLAGS = tf.app.flags.FLAGS 


中 


# 指定 当前 运行 的 是 
中 变量 的 维护 


# 和 和 管理， 计算 服 务 器 负责 每 一 轮 达 代 时 运行 反 向 传播 过 程 。 


参数 服务 器 还 是 计算 服务 器 。 参 数 服 务 器 只 负责 TensorF1Low 


tf.app.flags.DEFINE_ string('job_ name', ‘'worker’', ' "ps" or "w 


# 指定 集群 中 的 参数 服务 器 地 址 。 
tf.app.flags,DEFINE_string( 
'ps_hosts', ' tf-ps0:2222,tf-psi:1111', 


'Comma- 
separated list of hostname:port for the parameter server jobs. ' 


EEO ti SO 22220 ef Sa 


# 指定 集群 中 的 计算 服务 器 地 址 。 

tf.app.flags.DEFINE_ string( 

'worker_hosts', ' tf-workerO0:2222,tf-worker1:1111"', 
'Comma-separated list of hostname:port for the worker jobs. ' 


"eg "tf-worker0O:2222,tf-worker1:1111" ') 


# 指定 当前 程序 的 任务 ID。TensorFlow 会 自动 根据 参数 服务 器 /计算 服务 器 列表 
中 的 端口 号 


# 来 启动 服务 。 注 意 参 数 服务 器 和 计算 服务 器 的 编号 都 是 从 0 开始 的 。 
tf.app.flags.DEFINE integer( 


'task_id', 0, 'Task ID of the worker/replica running the trai 


# 定义 TensorF1Low 的 计算 图 ， 并 返回 每 一 轮 欠 代 时 需要 运行 的 操作 。 这 个 过 程 和 
5.5 节 中 的 主 


区 es 但 为 了 使 处 理 分 布 式 计算 的 部 分 更 加 突出 ， 本 小 节 将 此 过 程 整理 
SJ 


def build model(x, y_, is_ chief): 
regularizer = tf.contrib.layers.12 regularizer (REGULARAZTI 


# 通过 和 5.5 节 给 出 的 mnist_inference .py 代码 计算 神经 网 络 前 向 传播 的 结 


y = mnist_inference.inference(x, regularizer) 


global step = tf.Variable(0, trainable=False) 








# 计算 损失 函数 并 定义 反 向 传播 过 程 。 

cross_entropy = tf.nn.sparse softmax_cross_ entropy_with_ lo 
y, tf.argmax(y_, 1)) 

cross_entropy_mean = tf.reduce mean(cross_entropy) 

loss = cross_entropy mean + tf.add n(tf.get collection('lo 
learning_rate = tf.train.exponential decay( 

LEARNING RATE_BASE, global step, 60000 / BATCH_SIZE, 


LEARNING RATE_ DECAY) 


# 定义 每 一 轮 从 代 需要 运行 的 操作 。 
train op = tf.train.GradientDescentOptimizer(learning_rate 
.minimize(loss, global step=global_ step) 


return global_ step, loss, train op 


# 训练 分 布 式 深度 学 习 模 型 的 主 过程 。 

def main(argv=None ) : 
# 解析 flags 并 通过 tf.train.ClusterSpec 配 置 TensorFlow 集 群 。 
ps_hosts = FLAGS.ps_hosts.split(',') 
worker_hosts = FLAGS.worker_hosts.split(',') 
Cluster = tf.train.ClusterSpec({"ps": ps_hosts, "worker": 
# 通过 ClusterSpec 以 及 当前 任务 创建 Server。 
server = tf.train.Server( 


cluster, job_name=FLAGS.]job_name, task_index=FLAGS.task_id 








# 参数 服务 器 只 需要 管理 TensorFlow 中 的 变量 ， 不 需要 执行 训练 的 过 程 。 
server .join() 





# 会 一 直 停 在 这 条 语句 上 。 
If FLAGS. job_name == 'ps': 


Server ,join( ) 


# 定义 计算 服务 器 需要 运行 的 操作 。 在 所 有 的 计算 服务 器 中 有 一 个 是 主 计 算 服 
务 器 ， 它 除了 负责 


# 计算 反 向 传播 的 结果 ， 它 还 负责 输出 日 志和 保存 模型 。 


is_ chief = (FLAGS.task_ id == 0) 


mnist = input_data.read data sets(DATA PATH, one_hot=True) 





# 通过 tf.train.replica_device_setter 测 数 来 指定 执行 每 一 个 运算 的 
设备 。 


# tf.train.replica device _setter 函 数 会 自动 将 所 有 的 参数 分 配 到 参 
数 服务 器 上 ， 而 


# 计算 分 配 到 当前 的 计算 服务 器 上 。 图 10-9 展 示 了 通过 TensorBoard 可 视 化 
得 到 的 第 一 个 计 


# 算 服务 器 上 运算 分 配 的 结 
with tf.device(tf.train.replica device_ setter( 
worker_device="/job:worker/task:%d" % FLAGS.task_id, 

cluster=cluster)): 

x = tf.placeholder( 
tf.float32, [None, mnist_ inference.INPUT NODE], 
name='x-input') 

y_ = tf.placeholder( 
tf.float32, [None, mnist_inference.OUTPUT_ NODE], 
name='y-input') 

# 定义 训练 模型 需要 运行 的 操作 。 


global step, loss, train op = build model(x, y_) 


# 定义 用 于 保存 模型 的 saver。 
saver = tf.train.Saver() 
# 定义 日 志 输 出 操作 。 


summary_op = tf.merge all summaries() 


# 定义 变量 初始 化 操作 。 
init op = tf.initialize all variables() 
# 通过 tf.train.Supervisor 管 理 训练 深度 学 习 模 型 的 通用 功能 。 


# tf.train. Supervisor 能 统一 管理 队列 操作 、 模 型 保存 、 日 志 输 出 以 及 
会 话 的 生成 。 


sv = tf.train.Supervisor( 


is chief=is chief, # 定义 当前 计算 服务 器 是 否 为 主 计算 

服务 器 ， 只 有 
# 主 计算 服务 器 会 保存 模型 以 

及 输出 日 志 。 


logdir=MODEL_SAVE_PATH, # 指定 保存 模型 和 输出 日 志 的 地 址 。 


init_ op=init_ op， # 指定 初始 化 操作 。 
summary_op=summary_op, # 指定 日 志 生 成 操作 。 
saver = saver, # 指定 用 于 保存 模型 的 saver。 


global_step=global_ step,，  # 指定 当前 近代 的 轮 数 ， 这 个 会 用 于 生 
成 保存 模 


# 型 文件 的 文件 名 。 
save_model secs=60， # 指定 保存 模型 的 时 间 间 隔 。 


save_Ssummaries_secs=60)  # 指定 日 志 输 出 的 时 间 间 隔 。 


sess_config = tf.ConfigProto(allow soft_ placement=True, 
log_device placement=F 

# 通过 tf.train,.Supervisor 生 成 会 话 。 

sess = sv.prepare or wait for_session( 


server.target, config=sess_config) 


Step = 0 
start_ time = time.time() 


# 执行 欠 代 过 程 。 在 迭代 过 程 中 tf.train.Supervisor 会 帮助 输出 目 志 并 
保存 模型 ， 


# 所 以 不 需要 直接 调用 这 些 过 程 。 








while not sv.should stop(): 
xs, ys = mnist.train.next_ batch(BATCH_SIZE) 
_, loss value, global step_value = sess.run( 


[train op, loss, global step], feed dict= 
{x: xs, y_: ys}) 


if global step value >= TRAINING STEPS: break 


# 每 隔 一 段 时 间 输 出 训练 信息 。 
if step > 0 and step % 100 == 
duration = time.time() - start_ time 
# 不 同 的 计算 服务 器 都 会 更 新 全 局 的 训练 轮 数 ， 所 以 这 里 使 用 
# global_step_value 可 以 直接 得 到 在 训练 中 使 用 过 的 





batch 的 总 数 。 
sec_per_batch = duration / global_ step_value 
format_str = ("After %d training steps (%d global 
"loss on training batch is %g. 
"(%.3f sec/batch)") 
print(format_str % (step, global step value, 
loss_ value, sec_ per_bat 


step += 1 


sv.stop() 


nan Na 


tf.app.run() 





假设 上 面 代码 的 文件 名 为 dist_tf_mnist_async.py， 那 么 要 局 动 一 个 拥有 一 个 参数 
服务 器 、 两 个 计算 服务 器 的 集群 ， 需 要 先 在 运行 参数 服务 器 的 机 器 上 启动 以 下 命令 : 








python dist_tf_mnist async.py 和 
--Job_name='ps' \ 

--task_id=0 \ 
--ps_hosts='tf-ps0:2222' \ 


--Worker_ hosts=' tf-worker0:2222,tf-worker1:2222， 


然后 在 运行 第 一 个 计算 服务 器 的 机 器 上 启动 以 下 命令 


python dist_tf_ mnist_async.py 和 
--job_name='worker ”和 
--task_id=0 \ 
--ps_hosts='tf-ps0:2222'" \ 


--worker_hosts="'tf-worker0O:2222,tf-worker1:2222" 


最 后 在 运行 第 二 个 计算 服务 器 的 机 器 上 启动 以 下 命令 


python dist_tf_mnist async.py 和 


--Job_name='worker" \ 


--task_id=1 \ 
--ps_hosts='tf-ps0:2222' \ 


--worker_hosts='tf-worker0:2222,tf-worker1:2222' 








在 启动 第 一 个 计算 服务 器 之 后 ， 这 个 计算 服务 器 就 会 尝试 连接 其 他 的 服务 器 包括 计算 服 
务 器 和 参数 服务 器 ) 。 如 果 其 他 服务 器 还 没有 启动 ， 则 被 启动 的 计算 服务 器 会 报 连接 出 错 
的 问题 。 下 面 展 示 了 一 个 出 错 信息 。 


E1201 01:26:04.166203632 21402 tcp_client posix.c:173] 
worker1:2222': socket error: connection refused 


不 过 这 不 会 影响 TensorFlow 集 群 的 启动 。 当 TensorFlow 焦 群 中 所 有 服务 器 都 被 启动 之 
后 ， 每 一 个 计算 服务 器 将 不 再 报错 。 在 TensorFlow 集 群 完 全 启动 之 后 ， 训 练 过 程 将 被 执 
行 。 图 10-9 展 示 了 第 一 个 计算 服务 器 的 TensorFlow 计 算 图 。 从 图 10-9 中 可 以 看 出 ， 神 
经 网 络 中 定义 的 参数 被 放 在 了 参数 服务 器 上 (图 中 浅 灰 色 节 点 ) ， 而 反 向 传播 的 计算 过 程 
则 放 在 了 当前 的 计算 服务 器 上 《图 中 的 深 灰 色 节 点 ) 。 


























图 10-9 通过 TensorBoard 可 视 化 的 分 布 式 TensorFlow 计 算 图 


在 计算 服务 器 训练 神经 网 络 的 过 程 中 ， 第 一 个 计算 服务 器 会 输出 类 似 下 面 的 信息 。 











After 100 training steps (100 global steps), loss on training 


After 200 training steps (200 global steps), loss on training 


After 300 training steps (300 
After 400 training steps (463 
After 500 training steps (666 


After 600 training steps (873 


第 二 个 计算 服务 器 会 输出 类 似 下 面 的 信息 。 


After 100 training steps (537 


After 200 training steps (732 


After 300 training steps (925 





global 
global 
global 


global 


global 
global 


global 


steps), 
steps), 
steps), 


steps), 


steps), 
steps), 


steps), 


J]oss 


Joss 


Joss 


Joss 


Joss 


Joss 


Joss 


on 


on 


on 


on 


on 


on 


on 


training 
training 
training 


training 


training 
training 


training 


从 输出 的 信息 中 可 以 看 到 ， 在 第 二 个 计算 服务 器 启动 之 前 ， 第 一 个 计算 服务 器 已 经 运行 了 
很 多 轮 达 代 了 。 在 异步 模式 下 ， 即 使 有 计算 服务 器 没有 正常 工作 ， 参 数 更 新 的 过 程 仍 可 继 
续 ， 而 且 全 局 的 迭代 轮 数 是 所 有 计算 服务 器 迭代 轮 数 的 和 。 








同步 模式 样 例 程序 

















和 异步 模式 类 似 ， 下 面 给 出 的 代码 同样 也 是 基于 5.5 小 节 中 给 出 的 框架 。 





步 模式 的 分 布 式 神经 网 络 训练 过 程 。 


# -*- Coding: utf-8 -*- 


import time 


import tensorflow as tf 


该 代码 实现 了 同 


from tensorflow.examples.tutorials.mnist import Input_data 


import mnist_inference 


BATCH_SIZE = 100 
LEARNING RATE BASE = 0.8 
LEARNING RATE_ DECAY = 0.99 
REGULARAZTION_ RATE = 0.0001 
TRAINING STEPS = 10000 
MODEL_SAVE_PATH = "/path/to/model" 


DATA_PATH = "/path/to/data" 


# 和 异步 模式 类 似 的 设置 flags。 


FLAGS = tf.app.flags.FLAGS 


tf.app.flags.DEFINE_ string('job_name', ‘'worker', ' "ps" or "w 
tf.app.flags.DEFINE_ string( 
'ps_hosts', ' tf-ps0:2222,tf-psi:1111', 


'Comma- 
separated list of hostname:port for the parameter server jobs. ' 


emo tis SO 2222 0h SI 


tf.app.flags.DEFINE_ string( 
'worker_hosts', ' tf-worker0O:2222,tf-worker1:1111"', 
'Comma-separated list of hostname:port for the worker jobs. ' 


"eg "tf-worker0O:2222,tf-worker1:1111" ') 


tf.app.flags.DEFINE integer( 


'task_id', 0, 'Task ID of the worker/replica running the trai 


# 和 异步 模式 类 似 地 定义 TensorFlow 的 计算 图 。 唯 一 的 区 别 在 于 使 用 

# tf.train.SyncReplicas0ptimizer 函 数 处 理 同步 更 新 。 

def build model(x, y_, nNn_workers, is_chief): 
regularizer = tf.contrib.layers.12 regularizer (REGULARAZTI 
y = mnist_inference.inference(x, regularizer) 


global step = tf.Variable(0, trainable=False) 


variable averages = tf.train.ExponentialMovingAverage( 
MOVING_AVERAGE DECAY, global step) 


variables_ averages op = variable averages.apply(tf.trainab 


cross_entropy = tf.nn.sparse softmax_cross_ entropy_with_ lo 
y, tf.argmax(y_, 1)) 

cross_entropy_mean = tf.reduce mean(cross_ entropy) 

loss = cross_entropy _ mean + tf.add n(tf.get collection('lo 
learning_rate = tf.train.exponential decay( 

LEARNING RATE_BASE, global step, 60000 / BATCH_SIZE, 


LEARNING_ RATE_ DECAY) 


# 通过 tf.train.SyncReplicas0ptimizer 消 数 实现 同步 更 新 。 
opt = tf.train.SyncReplicasOptimizer( 
# 定义 基础 的 优化 方法 。 


tf.train.GradientDescentOptimizer(learning_rate), 


# 定义 每 一 轮 更 新 需要 多 少 个 计算 服务 器 得 出 的 梯度 。 
replicas_ to_ aggregate=n_workers， 

# 指定 总 共有 多 少 个 计算 服务 器 。 

total num_replicas=n_workers, 

# 指定 当前 计算 服务 器 的 编号 。 


replica id=FLAGS.task_id) 


train op = opt.minimize(loss, global step=global step) 


return global_ step, loss, train op, opt 


def main(argv=None): 
# 和 异步 模式 类 似 地 创建 TensorFlow 集 群 。 
ps_hosts = FLAGS.ps_hosts.split(',') 
worker_hosts = FLAGS.worker_hosts.split(',') 


n_workers = len(worker_hosts) 
cluster = tf.train.ClusterSpec({"ps": ps_hosts, "worker™": 
server = tf.train.Server( 


cluster, job_name = FLAGS. job_name，task_index=FLAGS ,task_ 


if FLAGS. job_name == 'ps': 


Server ,join( ) 


is_chief = (FLAGS .task_id == 0) 


mnist = input_data.read data sets(DATA PATH, one_hot=True) 


with tf.device(tf.train.replica device_ setter( 
worker_device="/job:worker/task:%d" % FLAGS.task_id, 
cluster=cluster)): 
x = tf.placeholder( 
tf.float32, [None, mnist_inference.INPUT NODE], 
name='x-input') 
y_ = tf.placeholder( 
tf.float32, [None, mnist_inference.OUTPUT_ NODE], 
name='y-input') 
global_ step, loss, train op, opt = build model( 


x, y_, nN_workers, is_chief) 


saver = tf.train.Saver() 
summary_op = tf.merge all summaries() 


init_op = tf.initialize all variables() 





# 在 同步 模式 下 ， 主 计算 服务 器 需要 协调 不 同 计 算 服 务 器 计算 得 到 的 参数 梯度 
并 最 终 更 新 


# 参数 。 这 需要 主 计 算 服务 器 完成 一 些 额外 的 初始 化 工作 。 





if 1IS_chief: 
# 定义 协调 不 同 计算 服务 器 的 队列 并 定义 初始 化 操作 。 


chief_queue_runner = opt.get chief_ queue_runner () 


init_tokens op = opt,get_init_tokens_ op(0) 


# 和 异步 模式 类 似 的 声明 tf.train.Supervisor。 
sv = tf.train.Supervisor(is_ chief=is_chief, 
logdir=MODEL_SAVE_PATH, 
init_ op=init_op, 
summary_op=summary_op, 
saver=saver, 
global_ step=global_ step, 
save model secs=60, 
save_summaries_secs=60) 
sess_config = tf.ConfigProto(allow soft_ placement=True, 
lo0g_device placement=F 
sess = sv.prepare or wait for_session( 


server.target, config=sess_config) 


化 上 fe。 在 开 始 训练 模 型 之 前 ， 主 计算 服务 器 需要 启动 协 滑 同步 更 新 的 队列 并 执行 初 


if is_ chief: 
sv.start_queue_runners(sess, [chief queue runner]) 


sess.run(init_ tokens_ op) 


# 和 异步 模式 类 似 的 运行 近代 的 训练 过 程 。 
step = 0 


Start_time = time.time() 


while not sv.should stop(): 
xs, ys = mnist.train.next_ batch(BATCH_SIZE) 
_, loss value, global step_value = sess.run( 


[train op, loss, global step], feed dict= 
{x: xs, y_: ys}) 


if global_ step value >= TRAINING STEPS: break 


if step > 0 and step % 100 == 
duration = time.time() - start_time 
sec_per_batch = duration / (global step value * nNn_ 
format_str = ("After %d training steps (%d global 
"loss on training batch is %g. 
"(%.3f sec/batch)") 
print(format_str % (step, global step value, 
loss_ value, sec_ per_bat 
step += 1 


sv.stop() 


naman .=— ma 


tf.app.run() 


和 异步 模式 类 似 ， 在 不 同 机 器 上 运行 以 上 代码 就 可 以 启动 TensorFlow 集 群 。 但 和 异步 模 
式 不 同 的 是 ， 当 第 一 台 计 算 服 务 器 初始 化 完毕 之 后 ， 它 并 不 能 直接 更 新 参数 。 这 是 因为 在 
程序 中 要 求 每 一 次 参数 更 新 都 需要 来 自 两 个 计算 服务 器 的 梯度 。 在 第 一 个 计算 服务 器 上 ， 
可 以 看 到 与 下 面 类 似 的 输出 。 











E1201 


After 


After 


After 


After 


第 二 个 计算 服务 器 的 输出 如 下 : 


After 


After 


After 


After 


在 第 一 个 计算 服务 器 的 第 一 
sec/batch， 要 远 远 慢 于 最 后 的 平均 速度 0 .042 
开始 之 前 ， 第 一 个 计算 服务 器 需要 等 
100 轮 迭代 的 平均 速度 是 
卡 住 时 ， 其 他 所 有 的 计算 服务 器 部 需 要 等 


01:26:04.166203632 
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等 待 这 个 最 慢 的 计算 服务 器 。 
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行 输出 中 可 以 看 到 ， 前 100 轮 迄 代 的 平均 速度 为 0 ,176 

sec/batch。 这 是 因为 在 第 一 迭代 轮 
个 计算 服务 器 执行 初始 化 的 过 程 ， 于 是 导致 前 
这 也 反应 了 同步 更 新 的 一 个 问题 。 


当 一 个 计算 服务 器 被 


为 了 解决 这 个 问题 ， 可 以 调整 tf.train.SyncRep1Licasoptimizer 函 数 中 的 





replicas to_ 








aggregate 参 数 。 当 replicas_to_aggregate 小 于 计算 服务 器 总 数 


时 ， me ee ts 的 梯度 ， 从 而 避免 被 最 慢 的 计算 服务 器 卡 住 。 
TensorFlow 也 支持 通过 调整 同步 队列 初始 化 操作 


tf.train. ge ee get_init_tokens_op 中 的 参数 来 控 秆 





























| 对 不 





同 计算 服务 器 之 间 的 同步 要 求 。 当 提供 给 初始 化 函数 get_init_tokens_op 的 参数 大 于 
0 时 ，TensorFlow 支 持 多 次 使 用 由 同一 个 计算 服务 器 得 到 的 梯度 ， 于 是 也 可 以 缓解 计算 
服务 器 性 能 瓶颈 的 问题 。 


10.4.3 使 用 Caicloud 运 


TensorFlow 

















行 分 布 式 








从 10 .4.2 小 节 中 给 出 的 样 例 程序 可 以 看 出 ， 每 次 运行 分 布 式 TensorFLow 都 需要 登录 不 
同 的 机 器 来 启动 集群 。 这 使 得 使 用 起 来 非常 不 方便 。 当 需要 使 用 100 台 机 器 运行 分 布 式 
TensorF1Low 时 ， 需 要 手动 登录 到 每 一 台 机 器 并 启动 TensorF1Low 服 务 ， 这 个 过 程 十 分 人 烦 
开 。 而 且 ， 当 某 个 服务 器 上 的 程序 死 掉 之 后 ， TensorFlow 并 不 能 自动 重启 ， 这 给 监控 工 
作 带 来 了 巨大 的 难度 。 如 果 类 比 TensorFlow 与 Hadoop 包 -， 可 以 发 现 TensorF1Low 只 实 
现 了 相当 于 Hadoop 中 MapReduce 的 计算 框架 ， 而 没有 提供 类 似 Yarn 的 集群 管理 工具 以 
及 HDFS 的 存储 系统 。 为 了 降低 分 布 式 TensorF1Low 的 使 用 门槛 ， 才 云 科技 
(Caicloud.io) 基于 Kubernetes 鱼 - 容 器 云 平 台 提供 了 一 个 分 布 式 TensorF1Low 平 台 
TensorFlow as a Service (TaaS) cj-。 本 节 中 将 大 致 介绍 如 何 使 用 Caicloud 提 
供 的 TaaS 平 台 运行 分 布 式 TensorFlow。 


从 10 ,4.2 小 节 中 给 出 的 代码 可 以 看 出 ， 编 写 分 布 式 TensorFlow 程 序 需要 指定 很 多 与 模 
型 训练 无 关 的 代码 来 完成 TensorFlow 集 群 的 设置 工作 。 为 了 降低 分 布 式 TensorFlow 的 
学 习 成 本 ，Caicloud 的 TensorFlow as a Service (TaaS) 平台 首先 对 
Temsorr ow | 屏蔽 了 其 中 与 模型 训练 无 关 的 底层 细节 。 其 次 ， 
TaaS 平 台 结合 了 谷歌 开源 的 容器 云 平台 管理 工具 Kubernetes 来 实现 对 分 布 式 

a hehe 并 支持 通过 UI 设置 分 布 式 TensorFlow 任 务 的 节点 个 
数 、 是 否 使 用 GPU 等 信息 


Caicloud 的 TaaS 平 台 提供 了 一 个 抽象 基 类 CaicloudDistTensorflowBase， 该 类 
ne es 模型 参数 共享 与 更 新 逻辑 处 理 、 计 算 节 人 
间 的 协同 交互 以 及 训练 得 到 的 模型 和 日 志 的 保存 等 与 模型 训练 过 程 无 关 的 操作 。 用 户 只 需 
要 继承 该 基 类 ， 并 实现 与 模型 训练 相关 的 函数 即 可 。 其 代码 结构 如 下 : 

































































































































































import caicloud dist tensorflow base as caicloud 
class MyDistTfModel(caicloud.CaicloudDistTensorflowBase): 


""" 基 于 自身 业务 来 定义 训练 模型 、 执 行 训练 操作 等 """ 





用 户 继承 的 类 需要 选择 性 地 实现 CcaicloudDistTensorflowBase 基 类 中 的 4 个 函数 ， 
它们 分 别 是 build_model、get_init_fn、train 和 after_train。build_model 
给 出 了 定义 TensorF1Low 计 算 图 的 接口 。 在 这 个 函数 中 ， 用 户 需 要 处 理 输入 数据 、 定 义 深 
度 学 习 模 型 以 及 定义 训练 模型 的 过 程 。get_init_ fn 函数 中 可 以 定义 在 会 话 
(tf.Session) 生成 之 后 需要 额外 完成 的 初始 化 工作 ， 当 没有 特殊 的 初始 化 操作 时 ， 用 
户 可 以 不 用 定义 这 个 函数 。 这 个 函数 可 以 完成 模型 预 加 载 的 过 程 。train 函 数 中 定义 的 是 
每 一 轮训 练 中 需要 运行 的 操作 。TaaS 会 自动 完成 迭代 的 过 程 ， 但 用 户 需 要 定义 每 一 轮 迭 
代 中 需要 执行 的 操作 。 最 后 在 训 0 用 户 可 以 通过 定义 after_train 来 评测 以 
及 保存 最 后 得 到 的 模型 。 下 面 将 通过 TaaS 平 台 实现 分 布 式 TensorFlow 训 练 过 程 来 解决 
MNIST 问 题 2- 


















































import tensorflow as tf 


from tensorflow.examples.tutorials.mnist import input_data 


import caicloud dist tensorflow _ base as caicloud “2 


class CaicloudDistMnist(caicloud.CaicloudDistTensorflowBase): 
# 定义 神经 网 络 前 向 传播 的 过 程 。 
def _inference(self, images ) : 
w = tf.Variable(tf.zeros([784, 10]), name='weights') 
tf.summary.histogram("weights", w) 
b = tf.Variable(tf.zeros([10]), name='bias') 
tf.summary.histogram("bias", b) 
predictions = tf.matmul(images, w) + b 


return predictions 


# 定义 优化 函数 。 在 同步 模式 下 需要 使 用 SyncReplicas0ptimizerV2 来 同 
步 不 同 worker。 


def _create optimizer(self, sync, num_replicas): 
optimizer = tf.train.Adagradoptimizer(0.01) 
if sync: 
num_workers = num_replicas 
optimizer = tf.train.SyncReplicasOptimizerV2( 
optimizer, 
replicas_to aggregate=num workers, 
total num_replicas=num workers, 


name="mnist_sync_replicas") 


return optimizer 


# build modelI 函 数 中 ，g1obal _ step 参数 是 全 局 的 训练 轮 数 ， 在 定义 优化 
函数 时 需要 将 训 


# ” 练 轮 数 作为 参数 传 入 ， 这 样 g9lobal_step 可 以 通过 优化 器 自动 维护 。 
is_chief 参 数 给 出 了 


# 当前 节点 是 否 为 主 计算 节点 。Sync 参 数 给 出 了 是 否 使 用 同步 模式 。 当 sync 
为 True 时 模型 


# 需要 采用 同步 模式 更 新 ， 否 则 使 用 异步 模式 。num_replicas 参 数 给 出 了 该 
TensorFlow 集 


# 和 群 中 计算 节点 的 个 数 。buil1d_modelI 函 数 需要 返回 一 个 
tensorflow.train.Optimizer 


# 对 象 ，TaaS 平 台 将 自动 使 用 该 对 象 来 完成 同步 模式 下 初始 化 的 工作 。 





def build model(self, global step, is_chief, sync, num_rep 
# 定义 当前 worker 的 训练 轮 数 ， 该 变量 可 以 用 来 输出 训练 信息 。 


self. step = 0 


# 加 载 MNIST 数 据 ， 数 据 存放 的 地 址 需要 为 Caicloud 提 供 的 存储 路 径 。 
mnist = input_data.read data sets( 


"/caicloud/dist- 
tf/base/examples/mnist/data", one_hot=True) 


self. mnist = mnist 


# 定义 神经 网 络 的 输入 和 模型 的 前 向 传播 。 
input_images = tf.placeholder( 
tf.float32, [None, 784], name="'images') 


self._ input_images = input_images 


predictions = self._ inference(input_images ) 


# 定义 损失 函数 。 

labels = tf.placeholder(tf.float32，[None，10]，name= ' labe 

Self._ labels = labels 

cross_entropy = tf.reduce_mean( 
tf.nn.softmax_cross_entropy with logits(predictions, 

self._ loss = tf.reduce mean( 


cross_entropy, name='cross_ entropy_ mean') 


# 定义 优化 函数 。 在 调用 优化 函数 时 ， 我 们 需要 将 gLobal_step 传 入 优化 函 


数 ， 否 则 系统 


# 将 无 法 获取 全 局 的 训练 轮 数 。 
optimizer = self. create optimizer(sync, num_replicas) 
train_ op = optimizer .minimize( 

cross_entropy, global step=global step) 


self._ train op = train_ op 


# 定义 计算 正确 率 的 方法 。 

correct_prediction = tf.equal(tf.argmax(predictions, 1), 
tf.argmax (labels, 1) 

accuracy = tf.reduce mean(tf.cast(correct_ prediction, tf.f 


self. accuracy = accuracy 


# 返回 优化 函数 。 


return optimizer 


# Caicloud TaaS 平 台 在 生成 TensorFlow 会 话 (Session) 之 后 会 自动 地 
执行 默认 的 初 


# 始 化 操作 ， 例 如 参数 初始 化 、 同 步 模式 更 新 队列 初始 化 等 。 但 如 果 用 户 有 其 
他 需要 在 开始 模 


pe a 型 训练 之 前 完成 的 操作 ， 例 如 模型 预 加 载 ， 则 可 以 通过 定义 get_init_fn 函 
来 完成 。 


# get_init fn 函数 的 参数 Checkpoint_ path 提供 了 用 于 模型 预 加 载 的 
checkpoint 文 件 


# 地 址 或 checkpoint 文 件 所 在 目录 的 路 径 。get_init_ fn 函数 的 返回 为 一 个 


# 必须 接收 一 个 参数 ， 即 一 个 可 用 的 会 话 (Session) 。 该 函数 将 在 启动 模型 
训练 之 前 被 调用 。 


# 以 下 代码 展示 了 如 何 通过 该 函数 进行 模型 预 加 载 。 








def get_ init_fn(self, checkpoint_path): 
# 获取 模型 文件 地 址 。 
if tf.gfile.IsDirectory(checkpoint_path): 
checkpoint path = tf.train.latest_ checkpoint(checkpoin 
ESsen 
checkpoint_path = checkpoint_path 


print('warm- 
start from checkpoint {0}'.format(checkpoint_path)) 


# 模型 预 加 载 。 
saver = tf.train.Saver(tf.trainable variables()) 


def InitAssignFn(sess): 


saver .restore(sess, checkpoint_path) 


# 返回 执行 模型 预 加 载 的 函数 。 


return InitAssignFn 


# Caicloud TaaS 平 台 会 自动 地 循环 调用 train 函 数 来 训练 深度 学 习 模 型 。 
train 函 数 中 ， 


# 用 户 只 需要 定义 每 一 轮训 练 中 需要 执行 的 步骤 。 训 练 的 步骤 可 以 包括 调用 优 
化 函数 以 及 计算 清 


# 动 平均 等 。train 函 数 需要 返回 一 个 布尔 类 型 ， 表 示 当 前 训练 是 否 需要 结 
束 。 这 样 可 以 支持 当 


# 正确 率 比 较 稳 定之 后 提前 结束 训练 。 











def train(self, session, global step, is_ chief): 
# 执行 模型 训练 步 又 并 记录 时 间 。 
start_ time = time.time() 
batch_xs，batch ys = self. mnist.train.next_batch(100 ) 
feed dict = {self._ input_ images: batch_xs，Sself., labels: b 
_, loss value, np_global step = session.run( 
[self._ train_op, self._ loss, global stepl], 
feed_ dict=feed_ dict ) 
self._ step += 1 


duration = time.time() - start_ time 


# 每 隅 一 段 时 间 输 出 训练 信息 。 


if self,_ step % 50 == 


print( Step %d: loss = %.2f (%.3f sec), global step: % 
self._step, loss value, duration, np_global_ step)) 
if self._step % 1000 == 
print("Accuaracy on Validation Data: %.3f" % session.r 
self. accuracy, feed dict={ 
self._ input_images: self,. mnist.validation.ima 
self. labels: self. mnist.validation.1labels})) 


return False 


# 在 模型 训练 成 功 结束 后 希望 能 够 计算 最 终 训 练 得 到 的 模型 在 MNIST 测 试 数据 
集 上 的 正确 率 。 


# 这 个 过 程 可 以 通过 定义 after_train 函 数 来 实现 。 类 似 的 ， 用 户 也 可 以 在 
after_train 


# 函数 中 保存 最 终 的 模型 。 
def after_train(self, session, is_chief): 
print("train done.") 
print("Accuracy on Test Data: %.3f" % session.run( 
self. accuracy, feed dict={ 
self._ input_images: self. mnist.test.images, 
self._ labels: self. mnist.test.1labels})) 
将 以 上 代码 提交 到 caicloud 的 TaaS 平 台 之 后 ， 可 以 看 到 类 似 图 10-10 所 示 的 监控 页 
面 。 在 监控 页 面 中 ，Taas 提 供 了 对 资源 利用 率 、 训 练 进度 、 训 练 模式 、 程 序 日 志 以 及 
TensorBoard 等 多 种 信息 的 综合 展示 ， 用 户 可 以 更 好 地 了 解 训练 的 进度 和 状态 。 因 为 篇 


幅 所 限 ， 对 TaaS 感 兴趣 的 读者 可 以 在 Caicloud 的 官方 网 站 caicloud ,io 上 找到 更 多 信 
息 和 教程 。 





















































三 Caicloud € TensorFlow & caicdoudadmin ~ 
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图 10-10 Caicloud 提 供 的 TaaS 分 布 式 TensorFlow 任 务 详情 页 面 
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在 本 章 中 介绍 了 TensorFlow 如 何 通 过 GPU 或 /和 分 布 式 集群 的 方式 加 速 深度 学 习 模 型 的 
训练 过 程 。 首 先 ，10 .1 节 介 绍 了 在 TensorFlow 中 使 用 单个 GPU 加 速 计 算 的 过 程 。 
TensorF1Low 对 于 单个 GPU 的 支持 是 非常 方便 的 ， 几 乎 不 需要 任何 的 额外 设置 。 
TensorF1Llow 可 以 自动 将 计算 优先 分 配 到 GPU 上 。 这 一 节 也 介绍 了 如 何 使 用 tf .device 
函数 来 手动 配置 计算 运行 的 设备 。 然 后 ， 在 10 .2 节 中 详细 介 绍 了 训 练 深度 学 习 模 型 的 并 
行 模式 。 这 一 节 中 介 0 步 模型 商 种 并 行 模式 ， 并 介绍 了 这 两 种 模式 各 自 的 
优 缺 点 。 接 着 ， 在 10， 3 节 中 给 出 了 通 过 TensorFIlow 实 现 了 在 一 台 机 器 的 多 个 GPU 上 并 
行 地 训练 深度 学 习 模 型 。 


最 后 ， 在 10 ,4 节 中 介绍 了 如 何 通过 TensorFLow 和 集群 进一步 加 大 训练 深度 学 习 模 型 的 并 
行 化 程度 。 19 .4 .1 小 节 介绍 了 TensorFlow 集 群 的 运行 机 制 ， 并 给 出 了 局 动 简单 
TensorFlow 集 群 的 样 例 程序 。 这 个 小 节 中 也 介绍 了 TensorFlow 集 群 的 计算 图 内 分 布 式 














方式 和 计算 图 之 间 分 布 式 方式 ， 并 指出 在 海量 数据 下 ， 使 用 计算 图 之 间 分 布 式 方式 的 可 扩 
。10.4.2 小 节 给 出 了 具体 的 TensorFlow 代 码 ， 该 代码 通过 计算 图 之 间 分 布 式 


展 性 更 强 


方式 实现 了 并 行 化 深度 学 习 模 型 训练 的 同步 模式 和 异 
的 TensorFlow 在 支持 分 布 式 中 的 不 足 ， 并 介 绍 了 如 何 使 用 才 云 科技 
提供 的 TensorFlow as a service 平台 来 更 加 高 效 的 运行 














练 过 程 。 


(1) 


HD 
、 























步 模 式 。10 .4 ,3 小 节 中 指出 了 原生 


(caicloud.10) 


分 布 式 TensorFlow 模 型 训 


数字 出 自 谷歌 官 方 技术 博客 https://research.googleblog.com/2016/04/announcing- 
tensorflow-08-now-with.htmil。 


(2) 如 何 安装 支持 GPU 的 TensorFlow 环 境 可 以 参考 第 2 章 。 


(3) 


TensorFlow 


kernel 在 6ithub 的 

















https://github.com/tensorflow/tensorflow/tree/master/tensorflow/core/kernels 日 录 下 。 


(4) 不同 的 算法 实现 























见 会 有 略微 的 区 别 。TensorF1Low 也 支持 更 加 灵活 的 同步 更 新 方式 使 计 
































障 而 被 卡 住 。 
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在 同 





(5)” TensorBoard 在 


























第 9 章 中 有 详细 介绍 















































LE 


体 结果 可 以 参考 谷歌 官方 技术 博 











tensorflow- 08-now-with.htm]。 




















(7) 注意 这 里 
(8) 更 多 关 ]] 
(9) ”更 多 关于 





给 





FHadoop 的 介 


出 的 tf-worker(i) 和 tf-ps(:) 都 是 服务 器 地 址 。 





绍 可 以 参考 其 官方 网 站 : http://hadoop .apache .org/。 














FKubernetes 的 介绍 可 以 参考 其 官方 网 站 : http://kubernetes.io/。 











(10) TaaS 公 有 云 服务 测试 版 将 于 2017 年 3 月 底 正 式 上 线 。 


(11) ”Caicloud 提 供 

















(12) 。 在 Caicloud 提 供 

















caicloud.1io。 
轻松 注册 成 为 博文 视点 社区 用 户 (www .broadview.com.cn) ， 您 即 可 享受 以 下 服务 。 


。 下 载 资源 : ”本 书 所 提供 的 示例 代码 及 资源 文件 均 可 在 【下 载 资源 】 处 下 载 。 
您 对 书 中 内 容 的 修改 意见 可 在 【提交 勘误 】 处 提交 ， 若 被 采纳 ， 将 获 


。 提 交 勘 误 : 
曾 博文 视点 社区 积分 〈 在 您 购买 电子 书 时 ， 积 分 可 用 来 抵 扣 相应 金额 ) 。 


计 由 


























。 与 作者 交流 : 
者 一 同学 习 交 流 。 


页 面 入 口 : http://www.broadview,.com.cn/30959 


二 维 码 : 

















的 TaaS 平 台 只 支持 TensorFlow 0.12.0 及 以 上 版 本 。 


的 开发 环境 中 可 以 加 载 caicloud_dist_tensorflow_base 模 由 





在 页 面 下 方 【 读 者 评论 】 处 留 下 您 的 疑问 或 观点 





算 不 会 因为 某 个 设备 的 故 











步 模式 下 ， TensorFlow 会 保证 没有 设备 能 使 用 陈旧 的 梯度 更 新 模型 中 的 参数 。 


客 : https://research.googleblog.com/2016/04/announcing- 














R。Caicloud 同 时 也 提供 





了 用 于 开发 的 caicloud_dist_tensorflow_base 源 代码 及 pip 安 装 包 ， 感 兴趣 的 读者 可 以 参考 才 云 科技 官网 





i， 与 作者 和 其 他 读 
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